Split Learning在联邦自监督学习领域的应用

这篇论文是亚利桑那州立大学的Jingtao Li发表在ICLR2023上的，并接收为了Oral Paper，主要探讨联邦自监督学习在边缘设备上的解决方案。
题目：MocoSFL: enabling cross-client collaborative self-supervised learning
链接：https://openreview.net/pdf?id=2QGJXyMNoPz

研究背景

目前协作学习中，由于标记数据需要专业知识和时间投入，对于普通用户很难执行。针对目前协作学习中数据标注的难题，现有的方法是进行联邦自监督学习。

去年ICLR有一篇将联邦自监督的论文： https://openreview.net/forum?id=oVE1z8NlNe

利用发散感知聚合技术缓解了non-iid问题，并取得了SOTA精度。这种方法解决了企业数据孤岛的问题，但由于它对于计算资源以及本地数据量的严苛要求，因此很难实现跨用户的联邦自监督。

论文的思路：舍弃FedAvg框架，将Split Federated Learning（SFL）和Momentum Contrast（MoCo）对比学习技术，以实现低成本的跨用户联邦自监督学习。

先前的重要工作

Moco简介

BYOL、SimCLR 等方案使用当前 batch 中的其他样本作为负键（negative keys）来进行对比学习。与这些方案不同，MoCo（He2020CVPR [2]）使用先前计算的正键输出作为负键，并将它们存储在特征内存中以供将来的迭代使用。这种存储负键的机制使得 MoCo 的 batch size 要求相对较小，有利于减少设备内存，也易于实现特征共享。对于损失函数，MoCo依靠Info NCE损失作为对比机制：

其中，查询键$Q$和正键$K+$是由图像的两个增广视图在目标模型（Online Model）和动量模型（Momentum Model）的输出向量。$N$表示大小为$M$的特征内存中的所有负键。重要的是，MoCo方案的成功在很大程度上取决于其负键的“难度”，这可以通过（在第$t$次迭代）与之间的相似度（内积）来确定；相似度越小，其“难度”越高。

负键的“难度”会因为模型更新而迅速降低。因此，MoCo 采用一个变化缓慢的动量模型，在每个训练步骤结束时产生一致（consistent）的负键，来维护负键的“难度”。

Split Federated Learning

AAAI 2022的一篇论文：

https://ojs.aaai.org/index.php/AAAI/article/view/20825

该论文提出了Split Federated Learning（SFL），结合了卸载和联邦学习FedAvg，以“割裂层”为界，将原始模型架构分成2部分：

包含“割裂层”及其之前所有层的用户端模型
包含其余层的服务器端模型

将用户端模型的副本分发到用户端的本地设备上，然后在云服务器上实例化服务器端模型。Clients需要将潜向量（Latent Vector）即用户端模型的输出发送给Server端，然后由Server端模型处理潜向量，计算损失并执行反向传播，然后将梯度传回给Clients。经过多轮迭代以后，所有用户端模型会由Server端进行类似FedAvg的聚合过程。