联邦学习-基础
简单的对联邦学习做一个导论和初步认识;
联邦学习的诞生背景:
在现今云计算和分布式大数据发展下,单个公司的算力和模型效力已经达到了一定的峰值,越来越多的公司趋近于协同化。但是每个公司的数据极为宝贵并且公开交流及其困难,所以对于多公司联合构成统一的大型数据库,来训练一个统一的大型模型,变得极为困难,这也就是所谓的“数据孤岛”;
因此,联邦学习诞生了。通过多个公司之间仅仅传输参数给第三方,就能使第三方根据参数建立一个庞大的模型,并且可以根据这个大模型进行反馈,也就可以使得每个公司自己的模型由于其他公司模型的参数而进行补全,从而有效的解决了数据孤岛的问题,还能使得自己的模型更加优越;
联邦学习的基本概念:
简单来说就是对于每个公司,自己的模型M,通过参数传递,在第三方服务器上构建一个大型的模型FM。使得FM的性能无限逼近于数据库统一所建成的模型UM。用数学表示就是|UM-FM|<σ;
联邦学习的分类:
联邦学习模型总的来说包括三种,对应着三种不同的研究方向;
横向联邦学习:
适用领域:两个公司的数据集合具有大致相同的数据特征,但是用户很不重叠;
意义:常用来取得特征相同的用户数据进行构建联合模型;
纵向联邦学习:
适用领域:两个公司具有大致相同的用户群体,但是数据特征并不相同;
意义:将相同用户的数据进行聚合,来构建联合模型;
迁移联邦学习:
适用领域:两个公司用户群体和数据特征都不怎么相同;
意义:进行迁移模型的构建,解决数据规模小和标签样本少的问题,进行数据补全;
联邦学习的研究方向:
总的来说有三个问题方向:
1.隐私保护问题;
2.模型优化问题;
3.通信量的问题;