论文简介
- 论文名称:Federated Optimization for Heterogeneous Networks
- 作者:Tian Li,卡耐基梅隆大学
- 论文链接:https:https://arxiv.org/abs/1812.06127
- 论文来源:Arxiv
论文概述
联邦学习面临的两大挑战:
- 数据异构,主要是clients之间数据的non-iid问题。
- 系统异构,主要是设备间通信和计算能力的差异。
FedAvg的一般步骤
在每个commucation round内,参与更新的$K$个设备在本地SGD迭代$E$个epoch,然后把本模型上传到Server端聚合。
优点:本地迭代次数$E$的增大能够减少通信成本。
缺点:
- 不同local objectives $F_k$在本地迭代次数过多的话,会导致本地模型偏离全局最优解,影响收敛。
- 而且FedAvg这种固定E的操作没有考虑到不同硬件之间的差异,如果在固定时间内没完成E个epochs的迭代,这个本地模型会被drop掉。
其优化目标:
FedProx
FedProx的优化目标:

加了一个近端项,避免局部模型受non-iid的影响,偏离全局模型太远。
FedProx伪代码:

文章定义了$gama_k^t$-inexact solution,来代替原本的local epoch E,通过对local function的非精确求解,动态调整本地迭代次数,保证对异构系统的容忍度。
$gama_k^t$作为本地迭代的proxy,值越小,更新精度越高。
文章里还做了FedProx算法的收敛性分析,就略过了。
实验验证
$\mu$对收敛性的影响

$\mu=0$时,算法退化成FedAvg。$\mu>0$时,算法为FedProx。
实验可知适当的µ可以增加不稳定方法的稳定性,并可以迫使发散方法收敛。
non-iid下的表现

non-iid实验下的训练损失、测试精度和差异度测量。
可以看到,加入了proximal term修正项以后,提高了non-iid情况下整体收敛的稳定性。并且通过对本地设备动态调整迭代轮数,保证了模型对系统异构的容忍性。
Comments | NOTHING