联邦学习论文阅读：RSCFed: Random Sampling Consensus Federated Semi-supervised Learning

论文简介

论文名称：RSCFed: Random Sampling Consensus Federated Semi-supervised Learning
作者：Xiaoxiao Liang，香港科技大学
论文链接：https://arxiv.org/abs/2203.13993
论文来源：CVPR 2022

论文简介

动机：在半监督联邦的场景设定下，如果标记客户端或未标记客户端有的模型跟其他模型有很大偏差，则可以通过对客户执行随机子抽样来达成共识。

场景设定
文章设定了2种场景：

客户端完全标记或客户端完全未标记
所有客户端都是部分标记

对其他FSSL论文的鞭尸：

Quande Liu, Hongzheng Yang, Qi Dou, and PhengAnn Heng. Federated semi-supervised medical image
classification via inter-client relation matching. arXiv
preprint arXiv:2106.08600, 2021.

FedIRM没法扩展到non-iid场景下，他在客户端之间共享了一个类间相关矩阵，可能造成隐私泄露。

Dong Yang, Ziyue Xu, Wenqi Li, Andriy Myronenko, Holger R Roth, Stephanie Harmon, Sheng Xu, Baris Turkbey, Evrim Turkbey, Xiaosong Wang, et al. Federated semi-supervised learning for covid region segmentation in chest ct using multi-national data from china, italy, japan. Medical image analysis, 70:101992, 2021. 1, 2, 3, 6, 7, 8

Fed-Consist是从标记客户端和未标记客户端的权重入手，但其效果也有限，见下图：

作者认为的问题：无论是完全标记/完全未标记的情况，还是全部部分标记但non-iid的情况，其问题都是客户端之间可靠性不一致。

作者的解决方案：主体思路依然是调整各个模型的权重。将局部模型视为有噪声的模型，在聚合到全局模型之前，通过随机抽样提取出几个共识模型。在每一轮模型同步的时候，随机对客户端进行子采样，记录自采样的模型的平均权重，来作为子共识模型（共识模型是什么？）。多次执行提取子共识模型操作以后，再用多个子共识模型来聚合出全局模型。

文章里为了提取子共识模型，提出了距离重加权模型聚合（DMA），通过模型跟子共识模型的距离来动态增加模型权重。
文章的灵感来源应该是这篇文章：

Martin A Fischler and Robert C Bolles. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6):381–395, 1981. 2

论文方法

客户端处理

标记客户端：算CE
无标记客户端：用Mean-Teacher的一致性正则框架。每批无标记图片都增强2次，1次给student模型，一次给teacher模型。生成了预测$p_{stu}$和$p_{tea}$以后，再对$p_{tea}$进行锐化：

得到$\hat{p_{tea}}$。$\tau$是温度系数。通过锐化操作将样本推离决策边界，生成更好的一致性对齐目标。
这个公式我记得是MixMatch提出来的公式。

David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin Raffel. Mixmatch: A holistic approach to semi-supervised learning. arXiv preprint arXiv:1905.02249, 2019.

然后用MSE作为未标记客户端的局部目标，学生模型通过这个公式进行更新：

每次本地迭代完以后，教师模型接收学生模型的参数：

$\alpha$是动量参数，未标记客户端会学生模型作为客户端本地模型$\theta_u$。

随机采样共识

RSCFed通过在所有客户端上随机采样来发掘客户端之间的共识。通过对收集到的模型进行聚合，得到子共识模型，其中引入了距离重加权模型聚合（DMA）策略来动态调整权重。重复这两个步骤，得到一组子共识模型，然后再对所有的子共识模型进行聚合，得到每轮的全局模型。

多随机自采样

因为要采样出很多个子共识模型，所以要进行多个子随机采样：对于$K$个客户端，进行$M$次独立随机子采样，服务器向采样的客户端发送全局模型$\theta^t_{glob}$。然后采样客户端进行本地训练。

距离重加权模型聚合（Distance-reweighted Model Aggregation，DMA）

思想：本地模型越接近平均模型，就给他越大的权重。对每一个客户端子集，计算子集内平均模型如下：

$N_i$表示第i个客户端的本地数据量。
然后针对每个子集的第i个客户端进行动态扩展：

$\beta$是个超参，每个本地模型算其与平均模型之间的二范，再除上局部数据量$N_i$，目的是减少局部迭代对模型的影响（避免本地模型太过拟合自身数据）。之后再把权重映射到[0,1]。

如此得到每组的子共识模型以后，再用FedAvg取平均作为global model：

$\theta_{sub}^{m}$表示第$m$个子共识模型，然后用$\theta_{glob}^{t+1}$来初始化模型，进行下一轮迭代同步。

算法框图如下：

实验验证

数据集：SVHN、CIFAR-100、ISIC 2018（医学图像数据集）。
backbone：SVHN和CIFAR-100用的简单的CNN，ISIC2018用的ResNet18。然后用2层MLP和1层全连接建立分类网络。
non-iid划分：$Dir(\gamma)(\gamma=0.8)$。（这里作者太偷懒了，0.8算个锤子的non-iid啊。。。）
FSSL：一共10个客户端，1个全标记，9个全未标记。

实验结果如下：