论文简介
- 论文名称:RSCFed: Random Sampling Consensus Federated Semi-supervised Learning
- 作者:Xiaoxiao Liang,香港科技大学
- 论文链接:https://arxiv.org/abs/2203.13993
- 论文来源:CVPR 2022
论文简介
动机:在半监督联邦的场景设定下,如果标记客户端或未标记客户端有的模型跟其他模型有很大偏差,则可以通过对客户执行随机子抽样来达成共识。
场景设定
文章设定了2种场景:
- 客户端完全标记或客户端完全未标记
- 所有客户端都是部分标记
对其他FSSL论文的鞭尸:
Quande Liu, Hongzheng Yang, Qi Dou, and PhengAnn Heng. Federated semi-supervised medical image
classification via inter-client relation matching. arXiv
preprint arXiv:2106.08600, 2021.
FedIRM没法扩展到non-iid场景下,他在客户端之间共享了一个类间相关矩阵,可能造成隐私泄露。
Dong Yang, Ziyue Xu, Wenqi Li, Andriy Myronenko, Holger R Roth, Stephanie Harmon, Sheng Xu, Baris Turkbey, Evrim Turkbey, Xiaosong Wang, et al. Federated semi-supervised learning for covid region segmentation in chest ct using multi-national data from china, italy, japan. Medical image analysis, 70:101992, 2021. 1, 2, 3, 6, 7, 8
Fed-Consist是从标记客户端和未标记客户端的权重入手,但其效果也有限,见下图:

作者认为的问题:无论是完全标记/完全未标记的情况,还是全部部分标记但non-iid的情况,其问题都是客户端之间可靠性不一致。
作者的解决方案:主体思路依然是调整各个模型的权重。将局部模型视为有噪声的模型,在聚合到全局模型之前,通过随机抽样提取出几个共识模型。在每一轮模型同步的时候,随机对客户端进行子采样,记录自采样的模型的平均权重,来作为子共识模型(共识模型是什么?)。多次执行提取子共识模型操作以后,再用多个子共识模型来聚合出全局模型。

文章里为了提取子共识模型,提出了距离重加权模型聚合(DMA),通过模型跟子共识模型的距离来 动态增加模型权重。
文章的灵感来源应该是这篇文章:
Martin A Fischler and Robert C Bolles. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6):381–395, 1981. 2
论文方法

客户端处理
标记客户端:算CE
无标记客户端:用Mean-Teacher的一致性正则框架。每批无标记图片都增强2次,1次给student模型,一次给teacher模型。生成了预测$p_{stu}$和$p_{tea}$以后,再对$p_{tea}$进行锐化:

得到$\hat{p_{tea}}$。$\tau$是温度系数。通过锐化操作将样本推离决策边界,生成更好的一致性对齐目标。
这个公式我记得是MixMatch提出来的公式。
David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin Raffel. Mixmatch: A holistic approach to semi-supervised learning. arXiv preprint arXiv:1905.02249, 2019.
然后用MSE作为未标记客户端的局部目标,学生模型通过这个公式进行更新:

每次本地迭代完以后,教师模型接收学生模型的参数:

$\alpha$是动量参数,未标记客户端会学生模型作为客户端本地模型$\theta_u$。
随机采样共识
RSCFed通过在所有客户端上随机采样来发掘客户端之间的共识。通过对收集到的模型进行聚合,得到子共识模型,其中引入了距离重加权模型聚合(DMA)策略来动态调整权重。重复这两个步骤,得到一组子共识模型,然后再对所有的子共识模型进行聚合,得到每轮的全局模型。
多随机自采样
因为要采样出很多个子共识模型,所以要进行多个子随机采样:对于$K$个客户端,进行$M$次独立随机子采样,服务器向采样的客户端发送全局模型$\theta^t_{glob}$。然后采样客户端进行本地训练。
距离重加权模型聚合(Distance-reweighted Model Aggregation,DMA)
思想:本地模型越接近平均模型,就给他越大的权重。对每一个客户端子集,计算子集内平均模型如下:

$N_i$表示第i个客户端的本地数据量。
然后针对每个子集的第i个客户端进行动态扩展:

$\beta$是个超参,每个本地模型算其与平均模型之间的二范,再除上局部数据量$N_i$,目的是减少局部迭代对模型的影响(避免本地模型太过拟合自身数据)。之后再把权重映射到[0,1]。
如此得到每组的子共识模型以后,再用FedAvg取平均作为global model:

$\theta_{sub}^{m}$表示第$m$个子共识模型,然后用$\theta_{glob}^{t+1}$来初始化模型,进行下一轮迭代同步。
算法框图如下:

实验验证
数据集:SVHN、CIFAR-100、ISIC 2018(医学图像数据集)。
backbone:SVHN和CIFAR-100用的简单的CNN,ISIC2018用的ResNet18。然后用2层MLP和1层全连接建立分类网络。
non-iid划分:$Dir(\gamma)(\gamma=0.8)$。(这里作者太偷懒了,0.8算个锤子的non-iid啊。。。)
FSSL:一共10个客户端,1个全标记,9个全未标记。
实验结果如下:

作者方法(RSCFed)和FedIRM、Fed-Consist进行对比:

消融:
为了验证多重自采样操作和DMA的有效性:

为了比较未标记客户端的比率

部分标记情况
作者还在SVHN上试验了各客户端部分标记的情况:

通信效率
作者还比较了RSCFed和FedConsist的通信代价对比:

超参研究
主要研究了$M$(子采样操作的数量)和$K$(每次自采样操作中本地客户端的数量)。前面的实验过程中用的是$M=3,K=5$。

总结
这篇论文依然是在每个客户端加权上对FSSL进行改进,算是对FedConsist的延续。实验部分涵盖的面很多,但很多都是无关紧要的,最重要的是他想解决non-iid问题,但他的non-iid设置太温和了,只是$\gamma=0.8$,很难体现极端non-iid下的性能。
Comments | NOTHING