联邦学习论文论文阅读:FedProx


论文简介

  • 论文名称:Federated Optimization for Heterogeneous Networks
  • 作者:Tian Li,卡耐基梅隆大学
  • 论文链接:https:https://arxiv.org/abs/1812.06127
  • 论文来源:Arxiv

论文概述

联邦学习面临的两大挑战:

  • 数据异构,主要是clients之间数据的non-iid问题。
  • 系统异构,主要是设备间通信和计算能力的差异。

FedAvg的一般步骤

在每个commucation round内,参与更新的$K$个设备在本地SGD迭代$E$个epoch,然后把本模型上传到Server端聚合。
优点:本地迭代次数$E$的增大能够减少通信成本。
缺点

  • 不同local objectives $F_k$在本地迭代次数过多的话,会导致本地模型偏离全局最优解,影响收敛。
  • 而且FedAvg这种固定E的操作没有考虑到不同硬件之间的差异,如果在固定时间内没完成E个epochs的迭代,这个本地模型会被drop掉。



    其优化目标:


FedProx

FedProx的优化目标:




加了一个近端项,避免局部模型受non-iid的影响,偏离全局模型太远。

FedProx伪代码:



文章定义了$gama_k^t$-inexact solution,来代替原本的local epoch E,通过对local function的非精确求解,动态调整本地迭代次数,保证对异构系统的容忍度。
$gama_k^t$作为本地迭代的proxy,值越小,更新精度越高。

文章里还做了FedProx算法的收敛性分析,就略过了。

实验验证

$\mu$对收敛性的影响




$\mu=0$时,算法退化成FedAvg。$\mu>0$时,算法为FedProx。
实验可知适当的µ可以增加不稳定方法的稳定性,并可以迫使发散方法收敛。

non-iid下的表现




non-iid实验下的训练损失、测试精度和差异度测量。
可以看到,加入了proximal term修正项以后,提高了non-iid情况下整体收敛的稳定性。并且通过对本地设备动态调整迭代轮数,保证了模型对系统异构的容忍性。

声明:奋斗小刘|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 联邦学习论文论文阅读:FedProx


Make Everyday Count