联邦学习面临着来自不同客户端的non-IID数据分布以及其计算和通信能力的多样性带来的异构挑战。严重的数据异构性很容易导致客户端漂移,导致不稳定的收敛和较差的模型性能。
这篇文章主打“纠正”客户端漂移的原因,即数据异构性。具体来说,共享一小部分私有数据或私有统计信息可以使位于不同客户端的数据异构性降低。然而,数据共享方法使联邦学习面临隐私泄露的危险。虽然差分隐私是避免隐私泄漏的一个竞争候选方案,但使用差分隐私可能会导致性能下降。所有这些挑战激发了一个基本问题:“通过共享完全不包含私有信息的数据,可以克服联邦学习系统中的数据异构挑战吗?”
作者提出了虚拟同构性学习(VHL)。VHL通过在所有客户端之间共享一个独立于私有数据集的虚拟同构数据集,为每个客户端矫正私有数据的异构性。
方法步骤
VHL的关键挑战是如何生成虚拟数据集以提高模型性能。通常来说,将不同分布的新数据集与原始数据相结合可能会在不同方面牺牲泛化性能,例如分布漂移,带噪标签,和垃圾数据等问题。在实践中,从自然数据中采样数据以构建虚拟数据集是一个重要挑战。因此,引入来自不同分布的大量虚拟数据将导致训练分布不同于测试分布,即分布漂移,导致测试集的泛化性能较差。因此,分布漂移是引入虚拟数据集的一个关键不利影响。
幸运的是,我们可以访问有标签的虚拟数据集(即源域)和自然数据集(即目标域),因此我们可以通过域适应(DA)来缓解分布漂移。具体地说,我们可以匹配源域和目标域的条件分布。我们的理论分析表明,匹配基于标签信息的虚拟分布和自然分布可以实现可保证的泛化性能。这一匹配可以通过将同一类中的自然和虚拟数据特征拉到一起来实现,如图1所示。

图1 不同客户端的特征分布。圆形和三角形分别表示客户端A和B上的数据。由虚线圆框包围的点表示虚拟数据。不同的颜色代表不同标签的数据。经过本地训练后,同一标签在不同客户端上的私有自然数据的特征相距较远,但同一标签的共享虚拟数据的特征相距较近(左图)。
图2显示了训练后特征分布的T-SNE可视化。这些数据表明,同一类的私有数据在客户端之间具有不同的特征分布。但同一类的共享噪声数据在客户端之间具有相似的特征分布。

图2 使用FedAvg训练的3个不同客户端模型上的数据特征的t-SNE可视化。不同的颜色代表不同的数据类别,不同的形状代表不同的客户端,虚线圆圈表示虚拟数据。Naive VHL意味着使用私有自然数据和共享虚拟数据进行训练,而不进行特征校准。
基于这种现象,我们建议将同一标签的样本拉到一起,以便减少私有数据的特征漂移。在这里,我们给虚拟数据分配与私有数据相同的伪标签,使得虚拟标签与自然标签有一对一的映射,以便于进行特征校准。在具体实现中,我们只需要在虚拟特征与其相应的自然特征之间添加一个新的距离损失。与FedAvg相比,我们只需对噪声数据进行额外采样,并添加新的损失计算。因此,VHL可以与其他联邦学习算法无缝结合。
实验结果
对比方法:FedAvg、FedProx、SCAFFOLD、FedNova
数据集:CIFAR-10、FMNIST、SVHN、CIFAR-100



Comments | NOTHING