EuroSys:FLOAT

2024-07-06

paper FL

基本信息

标题：FLOAT: Federated Learning Optimizations with Automated Tuning

作者：

Ahmad Faraz Khan, Virginia Tech, United States
Azal Ahmad Khan, Indian Institute of Technology, Guwahati, India
Ahmed M. Abdelmoniem, Queen Mary University of London, United Kingdom
Samuel Fountain, University of Minnesota, United States
Ali R. Butt, Virginia Tech, United States
Ali Anwar, University of Minnesota, United States

发表时间和地点：

2024年4月22-25日
第十九届欧洲计算机系统会议（EuroSys '24），希腊雅典

链接：https://dl.acm.org/doi/10.1145/3627703.3650081

论文二十问

论文试图解决什么问题？
论文试图解决联邦学习（Federated Learning, FL）中由于客户端异质性带来的资源浪费、掉线和模型性能下降的问题，特别是如何动态优化加速技术以提高资源利用率和模型性能。
这是否是一个新的问题？
这并不是一个全新的问题，但这是一个在现有解决方案中仍然具有挑战性的问题。虽然已有研究尝试解决FL中的异质性问题，但大多数解决方案都无法在高度异质的环境中有效工作。
这篇文章要验证一个什么科学假设？
文章要验证的科学假设是，通过结合多目标强化学习与人类反馈（RLHF），可以动态选择和配置优化技术，从而提高FL中模型性能和资源效率，减少掉线和资源浪费。
有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？
相关研究可以归类为：
- 智能客户端选择：如Harmony, Oort, PyramidFL, FedProx等。
- 强化学习用于客户端选择：如AutoFL, MARL等。
- 异步通信方法：如FedBuff等。
- 加速技术：如量化、压缩、部分训练和模型剪枝。
论文中提到的解决方案之关键是什么？
解决方案的关键是使用多目标强化学习与人类反馈（RLHF）代理来动态选择和配置优化技术。RLHF代理能够在资源有限和异质的环境中优化FL的模型性能和资源利用效率。
论文中的实验是如何设计的？
实验设计包括在不同数据集上（如FEMNIST和CIFAR10）比较FLOAT与其他基线FL算法（如FedAvg, Oort, FedBuff）的性能。实验考察了准确性、掉线数和资源利用效率等指标。
用于定量评估的数据集是什么？代码有没有开源？
用于定量评估的数据集包括FEMNIST和CIFAR10。代码是开源的，可以在GitHub上获取。
论文中的实验及结果有没有很好地支持需要验证的科学假设？
是的，实验结果表明，FLOAT在提高模型准确性、减少掉线和改进资源利用效率方面表现优异，从而很好地支持了需要验证的科学假设。
这篇论文到底有什么贡献？
- 提出了FLOAT框架，通过多目标强化学习与人类反馈（RLHF）动态优化FL中的资源和性能。
- 证明了在不同数据集和FL算法中，FLOAT显著提高了模型性能和资源利用效率。
- 提供了一种通用且可重用的解决方案，能够无缝集成到现有FL系统。
下一步呢？有什么工作可以继续深入？

进一步优化RLHF代理以处理更复杂的FL任务和更大规模的客户端群体。
探索FLOAT在其他类型的联邦学习（如垂直联邦学习和混合联邦学习）中的应用。
研究如何进一步减少RLHF代理的计算和通信开销，特别是在资源非常有限的环境中。

要了解深入，一个模型为什么好？
FLOAT模型通过结合多目标强化学习与人类反馈（RLHF），动态选择和配置优化技术，提高了联邦学习（FL）中的资源利用率和模型性能，减少了掉线和资源浪费。具体来说，FLOAT在处理客户端异质性和资源波动方面表现优异，并显著提高了模型的准确性和资源效率。
以前的模型为什么不好？
以前的模型通常依赖于固定配置的优化技术或启发式方法，无法动态调整以适应客户端资源的变化。这些方法在处理高度异质的环境时表现不佳，常常导致资源浪费和掉线问题，从而影响整体模型的性能和效率。
哪个关键点对性能提升最大？
使用多目标强化学习与人类反馈（RLHF）代理是性能提升的关键。RLHF代理能够根据客户端的资源状况动态选择和配置优化技术，从而在提高模型性能的同时优化资源利用率，减少掉线和资源浪费。
哪些数学运算是关键的？
关键的数学运算包括：

局部模型更新：使用随机梯度下降（SGD）优化本地模型参数。
模型聚合：通过简单平均将各客户端的模型更新聚合到全局模型。
强化学习：使用Q学习算法优化RLHF代理，以动态选择和配置加速技术。

整个全流程是怎么走的？

客户端使用本地数据进行模型训练，并更新本地模型参数。
客户端将模型更新传输到中央服务器，服务器聚合这些更新以改进全局模型。
RLHF代理动态选择和配置加速技术，以优化资源利用和模型性能。
重复以上步骤，直到模型收敛。

数据是怎样流动的？其中是怎样变换的？各个变换有什么实际意义？
数据流动和变换过程：

本地数据训练：客户端使用本地数据集训练模型，计算并更新本地模型参数。
模型更新传输：客户端将本地模型参数更新传输到中央服务器。
全局模型聚合：中央服务器通过简单平均或其他聚合方法，将各客户端的更新合并到全局模型中。
加速技术应用：根据RLHF代理的建议，动态应用模型量化、剪枝、部分训练等加速技术，以优化资源利用和性能。

既要关注具体实现思路、也要关注上层抽象意义。作者灵感从何而来？
作者的灵感源于FL中异质性和资源波动带来的挑战。他们认识到静态优化技术和启发式方法在动态环境中的局限性，提出了结合多目标强化学习和人类反馈的方法，以动态调整优化策略，提高资源利用率和模型性能。

Abstract

联邦学习（FL）已成为一种强大的方法，使协作分布式模型训练无需数据共享即可实现。然而，FL面临固有的异质性挑战，导致出现落后者、掉线和性能变化等问题。选择客户端运行FL实例至关重要，但现有策略引入了偏见和参与问题，并未考虑资源效率。为了增加客户端参与度，提出的通信和训练加速解决方案也因系统资源的动态性而不足。我们在本文中设计了FLOAT这一新颖框架，以提高FL客户端的资源意识。FLOAT通过多种优化技术动态优化资源利用，以满足训练期限，减少落后者和掉线，从而提高模型收敛速度和性能。FLOAT利用多目标强化学习与人类反馈（RLHF）结合的方法，自动选择和配置优化技术，使其适应各个客户端的资源条件。此外，FLOAT无缝集成到现有FL系统中，在异步和同步FL设置中保持非侵入性和多样性。根据我们的评估，FLOAT将准确率提高了最多53%，将客户端掉线减少了最多78倍，并分别将通信、计算和内存利用率提高了最多81倍、44倍和20倍。

1.Introduction

原文
分布式机器学习（ML）工作流程通常涉及从多个来源收集训练数据到某个中心位置进行模型训练。然而，像GDPR和HIPAA这样的法规，企业由于竞争不愿意共享数据，收集来自边缘设备的个人信息的责任以及高数据移动成本等因素阻碍了这种集中数据收集。为此，联邦学习（FL）作为一种可行的解决方案应运而生，它能够在不需要数据共享的情况下实现众多客户端的协同ML模型训练。尽管FL在隐私保护方面有很大的潜力，并且在消费设备、医疗保健、金融和制造等多个领域得到了成功应用，但在实际应用中我们仍面临许多挑战。

与传统ML依赖独立同分布（IID）数据不同，FL环境本质上是异质的，因为它源于分布式和多样化的客户端群体。这种异质性带来了许多挑战，例如慢节点（stragglers）、掉线（dropouts）和由于数据和资源差异导致的模型性能下降。当客户端未能按时完成训练时，所取得的进展会丢失，这不仅浪费了用于训练和通信的资源，还会影响整体准确性。许多物联网（IoT）、边缘和移动设备已经在计算、网络、能源和内存方面受到限制。当设备的内存或网络使用有上限，或电池和计算时间受限时，随意使用这些有限资源尤其成问题。此外，为训练预留的资源本可以用于其他应用，导致FL性能下降和其他任务可用资源减少。当前的策略要么优先考虑可能迅速完成本地训练的设备，要么采用异步训练进行全局模型更新。然而，这两种方法在高度异质的场景中都会引入参与偏差，负面影响模型性能。此外，客户端的可用性对于提高资源效率和收敛时间至关重要。然而，将可用性视为固定的线性时间窗口是不现实的，因为可用性高度依赖于有限的网络、能源、计算资源以及并行运行应用的资源消耗，这使得预测可用时间段变得具有挑战性。

分析
FL vs ML：ML依赖于独立同分布的数据(IID,意味着所有数据点都是独立的，并遵循相同的分布。而FL由于其分布式的本质，数据来自多个多样化的客户端群体。
慢节点：计算能力/网络等问题导致

原文
为了增强客户端保留率，提出了几种加速技术以微调客户端参与度和模型性能之间的平衡。这些技术包括量化、压缩、部分训练和模型剪枝。然而，我们的评估揭示了在客户端资源条件不断变化的背景下，使用这些固定配置的加速技术在性能和资源效率方面存在显著差异。此外，加速技术并不是可以互换的，每种技术都有其独特的加速优势，同时也以不同方式影响模型的准确性。在不断变化的资源有限环境中组合这些技术增加了选择和配置过程的复杂性。此外，我们观察到基于启发式的动态加速配置解决方案无法满足多样化工作负载的精细调整需求，也无法应对复杂的资源波动。因此，由于客户端设备上资源的动态变化和消耗，每轮训练选择和配置适当的技术变得具有挑战性。这些设备随时间表现出不同的资源特性，创建了一个多层次的环境，不能通过静态加速或基于启发式的方法有效管理。

在本文中，我们提出了FLOAT，一个创新的框架，旨在优化模型性能和资源效率。FLOAT通过利用多目标强化学习与人类反馈（RLHF）代理来实现这一目标，该代理可以最大限度地减少慢节点和掉线。FLOAT方法的核心是平衡模型性能和资源消耗，使客户端能够充分利用其资源以实现训练目标而不会因数据陈旧而掉线。为了提高资源效率和模型性能，减少训练时间，FLOAT整合了模型量化、部分训练和剪枝等多种策略。与以前仅依赖单一优化技术或采用启发式方法的工作不同，FLOAT独特地采用了RLHF代理来确定最适合的优化方法及其配置。我们还通过引入基于Q学习的RLHF代理来增强FLOAT的可扩展性并最小化其开销，该代理缩小了从无限组合集中选择状态的范围。此外，由于能够以最低成本对RLHF代理进行微调，FLOAT的设计具有通用性和可重用性。重要的是，FLOAT是非侵入性的，能够平滑集成到现有的FL系统和客户端选择算法中，而不影响核心训练过程。

分析
客户端保留率：整个训练过程中，客户端能够持续参与训练的客户端比例。
异质：慢速者、掉线和由于数据和资源的固有差异 -> 模型性能下降
解决异质的方法：优先考虑可能及时完成本地训练的设备/采用异步训练来进行全局模型更新
启发式的动态加速配置解决方案：基于经验和实践制定的规则，是快速简单的，但不一定是最优解。

图1

分析
紫色：Computation Time
蓝色：Communicatioin Time
绿色：Memory Consumed
粉色：Energy

Device 1:计算能力低，导致称为Straggler，通过partial Training解决
Device 3:带宽低，导致称为Straggler，通过Quantization优化
Device 4:电池耗尽，能量消耗过高，导致设备dropout，通过Pruning优化

2.Background

联邦学习（Federated Learning, FL）是一种去中心化的机器学习方法。它允许多个设备或实体在不共享原始数据的情况下协同训练一个共享的模型，从而保持数据的去中心化和隐私保护。这个过程涉及在每个参与设备上使用本地数据训练一个全局模型𝜃，然后聚合这些模型更新以改进全局模型。在每一轮训练中，参与设备使用其本地数据集执行本地更新，通过优化算法（如随机梯度下降（SGD））优化其本地模型𝜃𝑖。这个更新过程由以下公式决定：
[ \theta_i \leftarrow \theta_i - \eta \cdot \nabla L(\theta_i, D_i) ]
其中，𝜃𝑖表示本地模型参数，𝜂是学习率，∇𝐿(𝜃𝑖,𝐷𝑖)是本地损失函数𝐿(𝜃𝑖,𝐷𝑖)的梯度。在本地更新之后，设备将其模型更新传输到中央服务器，服务器使用简单平均等方法对这些更新进行聚合：
[ \theta \leftarrow \frac{1}{N} \sum_{i=1}^{N} \theta_i ]
其中，𝑁是参与设备的数量。这个过程会迭代多轮，直到满足收敛标准。最后，全局模型𝜃会被评估并可以部署。上述描述的FL方法也被称为FedAvg，构成了其他许多流行FL工作的基础。

FL不仅允许在分布式数据上进行训练，还提供了数据隐私保护和通信减少等优势。这在数据敏感或分布在多个设备上的情况下非常有用，如在医疗保健、金融和物联网应用中。然而，由于客户端设备之间的系统和数据差异，FL面临一些问题。客户端之间的数据和资源异质性会降低模型性能，并导致跨设备FL中的响应时间变化（即客户端接收到训练任务和返回结果之间的时间），这通常被称为慢节点问题。正如图1所示，不同设备面临不同的挑战，如低计算能力、带宽限制和电池耗尽，这些都会加剧这一问题。如果不识别客户端的可变资源并实施自适应优化，FL中存在慢节点的风险会影响系统效率，延长收敛时间，并降低资源利用率。在最坏的情况下，资源有限的客户端在耗尽其可用资源后无法继续训练，也无法返回更新，这些设备被认为是掉线的。

3. 相关工作

原文
近期的研究主要解决了由于非独立同分布（non-IID）数据分布导致的统计异质性问题。然而，系统异质性的问题探索较少。一些研究提出了智能客户端选择策略，如Harmony、Oort、PyramidFL、FedProx和其他相关工作。然而，这些工作假设客户端具有静态和一致的资源可用性，且随着异质性增加，其性能会下降。一些方法使用强化学习（RL）进行客户端选择。AutoFL关注能源效率，而MARL旨在提高准确性。然而，这些方法不能提供对FL异质性的完整解决方案，因为它们只处理特定方面。

另一类研究建议使用异步通信方法，专注于通过广泛使用客户端资源来实现快速学习。这允许较慢的客户端继续使用较旧的模型进行训练，并在稍后参与聚合。然而，这会带来准确性降低、客户端选择偏差和收敛速度变慢等挑战。其他研究集中于加速技术，以减少客户端的计算和通信成本，如量化、压缩、部分训练和模型剪枝，旨在增加客户端的参与度。

选择每轮训练的合适技术具有挑战性，因为边缘设备资源的变化性质。客户端的可用性在资源效率和收敛时间中起关键作用。然而，一些研究（包括REFL）假设固定的可用时间窗口，这并不总是现实的。可用性受网络状态、能源水平、计算能力和用户活动等因素的影响。此外，尽管许多研究专注于准确性，但它们通常没有考虑由于客户端掉线导致的资源低效问题。

分析
Statistical Heterogeneity VS System Heterogeneity：统计异质性主要是因为，数据不是独立同分布的，以及数据存在偏差；系统异质性是客户端设备在计算能力，存储，网络带宽，电池寿命有关。
智能客户端选择策略：根据客户端的资源状况，数据特性和系统需求，动态选择合适的客户端参与每轮训练的策略。
异步通信：发送方和接受方不需要同时进行通信操作

4 动机

在本节中，我们通过检查先前研究的局限性和影响联邦学习（FL）性能的因素，来激发我们的工作。

4.1 先前工作的局限性

许多最近的研究采用了智能客户端选择策略来应对FL中的异质性问题，尽管它们取得了一些进展，但随着异质性来源的增加，其性能表现出下降趋势。其他研究工作，如AutoFL和FedMarl，仅采用强化学习（RL）来实现自适应和智能的客户端选择方法。Oort利用准确性和基于启发式的规则进行客户端选择，倾向于选择高效的客户端，这导致在部分客户端资源较低时选择存在偏差。这种偏差问题也可以在FedBuff中观察到，后者最多会进行5倍的过度选择，并更频繁地选择速度较快的客户端，而不是资源有限的客户端。此外，FedBuff在所有客户端选择算法中资源效率最低。而一些研究工作如REFL则考虑预测客户端的可用性模式，并将可用性视为一个固定的线性窗口。这是不现实的假设，因为客户端的可用性取决于许多因素，如能量消耗、计算能力、网络可用性和设备的网络吞吐量。

我们通过一个包含200个客户端（每轮选择20个客户端，进行300轮）的实验来展示这些问题，使用非EMNIST数据集和Dirichlet分布（alpha值为0.05）。对于资源异质性，我们使用真实的4G和5G网络追踪数据来捕捉客户端资源随时间的变化，以及一个真实的计算追踪数据。我们使用FedScale来计算延迟和其他资源指标，遵循的做法如。我们假设没有来自共址应用的干扰，这意味着所有资源都专用于FL训练。

在这个实验中，我们检查了三种主要的同步联邦学习（FL）方法，即FedAvg、Oort和REFL，以及一种最先进的异步FL技术，FedBuff。图2a展示了同步和异步客户端选择算法的选择偏差，突出了所有选择的客户端（C）和成功参与且没有掉线的客户端（S）。结果表明，FedAvg的客户端选择相对无偏，类似于Oort。另一方面，REFL显示出最大的客户端选择偏差，排除了50%的客户端，因为它倾向于选择更快的客户端。同样，FedBuff在客户端选择中表现出偏差，排除了25%的客户端，因为它倾向于持续选择和聚合来自速度较快客户端的结果。然而，图2b展示了同步和异步方法在资源消耗方面的显著差异，揭示了异步FL方法所需的训练时间不到同步方法的三分之一到一半；然而，异步FL方法的资源消耗是同步方法的4.5倍到7倍。因此，作为一种异步FL方法，Fedbuff通过广泛使用客户端资源来专注于快速学习，而FedAvg、REFL和Oort则优先考虑资源节约，导致学习时间较长。这些结果强调了需要一种能够感知系统异质性的解决方案，以最大限度地减少选择偏差，同时提高训练效率和资源利用率。

一些研究倡议为不同的客户端组训练独特的模型。Auxo提出了可扩展的客户端聚类，改善了模型性能。然而，它没有充分考虑性能和资源使用之间的权衡。客户端与中央服务器之间的异步通信允许较慢的客户端基于陈旧模型继续本地训练，并在准备好时参与聚合。然而，异步FL方法可能会显著降低训练准确性，带来偏差，并且收敛速度较慢。同样，半异步方法主要旨在减少异步FL中的通信，但忽略了其他低效问题。

4.2 掉线对客户端选择的影响

尽管客户端调度方面取得了许多进展 [2, 39, 51]，这些方法在现实世界的资源条件下仍面临挑战。具体而言，掉线可能导致准确性显著下降，即使使用复杂的客户端选择策略也是如此。为了说明这一点，我们采用了第 4.1 节中描述的相同实验设置，并在两种情境下评估不同客户端选择策略的前 10%、后 10% 和平均准确性指标：假设没有掉线（ND）和在实际资源约束下的掉线（D）。前 10% 的准确性指标取最高表现的 10% 客户端的平均准确性，后 10% 的准确性指标取最低表现的 10% 客户端的平均准确性，平均准确性反映所有客户端的平均准确性。

根据图 3 中的结果，所有客户端选择方法由于掉线都经历了显著的准确性下降，其中 REFL 受影响最大。其脆弱性的主要原因是其依赖于预测未来客户端的可用性，而由于客户端设备资源的动态特性，这项任务很难实现。另一方面，FedBuff 对这些挑战更具弹性。作为一种异步 FL 算法，FedBuff 可以同时训练多达 5 倍的客户端，从而在准确性损失方面提供了缓冲。然而，这以资源效率为代价。简而言之，这些调度算法面临的核心问题是无法考虑客户端端资源条件的波动性。

4.3 静态优化的局限性

为了解决掉线问题，存在多种落后者优化方法 [29, 57, 61, 66, 83]，这些方法在资源使用、训练时间和模型性能之间进行权衡。无损压缩可以减少通信带宽需求，但需要更多的计算资源来进行压缩和解压缩。另一方面，有损压缩和量化需要更多的计算资源，并且可能会降低模型的准确性。模型剪枝可以节省计算和通信资源，而部分训练则在减少计算的同时以牺牲准确性为代价。每种技术在资源利用减少和准确性下降方面的效果都不一致。此外，同时使用所有这些技术也是不可行的，因为它们会带来巨大的开销。评估这些方法的资源需求和性能影响是至关重要的。例如，应该考虑多少剪枝或量化可以在给定性能下缩短训练时间，或者选择什么样的部分训练配置可以在准确性和掉线减少之间取得最佳平衡。这些发现对于实现高效、资源感知的联邦学习（FL）非常重要。客户端应利用这些见解，动态选择最佳技术，并根据资源和数据分布的变化进行调整。仅依赖单一静态方法可能会因为无法适应变化的资源条件而变得低效。

我们使用第 4 节中图 2 所示的相同条件和跟踪数据，通过评估三种资源场景来突出这个问题：

无干扰 - 所有客户端资源完全用于 FL 训练；
静态设备内干扰 - 高优先级应用持续使用部分客户端资源；
动态设备内干扰 - 模拟一个动态环境，其中客户端设备上的并发应用动态使用可用资源，导致资源可用性水平变化。

我们将客户端分为两组：成功的客户端，这些客户端在应用优化后参与了训练，否则将会掉线；以及仍然在优化后掉线的客户端。

图 4 显示了不同场景下的资源分布。没有干扰时，带宽充足，设备上的训练速度较快。静态干扰下，带宽减少，计算资源被高优先级应用占用。动态干扰涵盖了所有可能性，反映了真实、可变的资源可用性，因此我们在进一步评估中重点关注其现实意义 [30, 34, 76]。

图 5 显示了我们使用静态优化技术对准确性性能和客户端参与指标的评估。值得注意的是，不同的优化方法对资源变化的反应不同。在前两种场景中，剪枝是优选方法，而在动态干扰下，部分训练表现更好。即使在单一优化技术内，不同配置的结果也会有所不同。如图 5（第二行）所示，没有干扰时，仅 25% 的模型剪枝效果最好，因为资源完全分配给 FL 训练，导致掉线减少。然而，在静态干扰下，资源被其他高优先级应用持续使用，需要 75% 的剪枝来确保客户端参与。在动态干扰下，50% 的剪枝提供了最佳平衡，因为 25% 的剪枝导致更多掉线，而 75% 的剪枝则降低了准确性。这些资源场景不仅限于这三个例子。存在大量的资源场景和配置设置，导致了庞大的优化搜索空间。因此，静态方法不适合作为管理客户端参与和模型性能平衡的整体解决方案。

4.4 基于启发式的方法

我们从图5中的观察表明，独立的技术在不同情况下产生不一致的结果，常常导致次优的结果。此外，现有的解决方案都无法有效地管理优化。因此，我们提出了一种基于启发式的方法，作为解决上述挑战的可能方案。在这种方法中，我们得出以下规则：

当因共同运行的应用程序或其他多种因素导致用于联邦学习训练的CPU和网络可用性低（即 𝑆_𝐶𝑃𝑈 和 𝑆_𝑁𝑒𝑡𝑤𝑜𝑟𝑘 < 𝑀𝑜𝑑𝑒𝑟𝑎𝑡𝑒）时，我们使用更极端的优化：75% 的剪枝或部分训练，或 8 位量化。
如果客户端设备有足够的CPU和网络资源（即 𝑆_𝐶𝑃𝑈 和 𝑆_𝑁𝑒𝑡𝑤𝑟𝑘 >= 𝑀𝑜𝑑𝑒𝑟𝑎𝑡𝑒），我们使用较少的极端优化：16 位量化或 25% 部分训练或剪枝。虽然优化选择是随机的，但其配置是通过上述规则智能选择的。

我们将这种基于启发式的方法与 FLOAT 及 FedAvg 作为基线客户端选择算法进行了比较。在这个实验中，我们使用了非独立同分布的 FEMNIST 数据集（Dirichlet alpha 0.01）和动态设备内干扰。这意味着客户端的资源不仅受到其他高优先级共置应用的限制，而且这些应用的需求也是动态变化的。

从图6中可以看出，仅使用启发式进行优化在资源波动条件下并不是最佳的。具体而言，图6（左）显示，基于启发式的解决方案在准确性和客户端参与度方面超过了原始的 FedAvg，但 FLOAT 的准确性进一步提高了近 20%。这种改进，如图6（中）所示，源于 FLOAT 减少了客户端掉线并高效利用了资源。为了进一步理解 FLOAT 减少掉线的原因，我们评估了各种优化方法及其配置的选择模式。我们还检查了它们在 FLOAT 和启发式方法下的成功率，如图6（右）所示。FLOAT 始终表现更好，表明其在选择最佳优化和配置方面的能力。

启发式方法倾向于偏向量化、75% 剪枝和部分训练。值得注意的是，在资源有限的情况下，量化的效果降低，似乎在网络是主要限制时更理想，这一模式在图10中得到了验证。这种启发式偏差导致了更多的掉线、资源浪费和准确性降低，突显了单纯基于启发式策略的缺点，尤其是在面对复杂选择和变化情境时。之前的动机点和支持结果提出了以下关键研究问题，我们将在本工作中尝试解决。

研究问题（RQ）

RQ1. 如何动态选择最佳技术，以在模型性能、训练时间和资源使用之间进行权衡，并且更重要的是，如何正确配置这些技术？

RQ2. 如何在大规模情况下管理 RLHF（强化学习与人类反馈）训练的开销？

RQ3. 如何使解决方案适应新的工作负载？

RQ4. 如何在强化学习中嵌入人类反馈？

RQ5. 如何使解决方案能够扩展到可能无限的系统条件？

RQ6. 如何定义 FLOAT 中 RLHF 代理的奖励和平衡的探索策略？

RQ7. 如何确保从掉线客户端获得持续反馈？

5 FLOAT

与现有的预测每个客户端行为以进行客户端选择的方法 [2, 34, 67] 不同，FLOAT 积极利用客户端的资源优势并整合反馈。这使得客户端能够在不出现延迟的情况下参与全局更新。FLOAT 通过加速滞后客户端并优化资源和模型性能的权衡，超越了基本的参数调优。

RQ1: 自动调优

设计一种全面的解决方案以提供各种可用权衡的主要障碍在于，由于去中心化训练的规模、系统和数据异质性、运行时差异 [34] 以及各种可能的权衡类型，优化空间过于庞大。为此，FLOAT 使用基于强化学习与人类反馈（RLHF）的自动自适应预测机制 [20]。图 7 展示了我们方法的总体设计。目标是训练一个 RLHF 代理，以生成每个客户端的查找表。RLHF 代理以全局状态和客户端状态为输入，选择优化动作，实现客户端设备的权衡策略，在满足模型性能要求的同时最大化联邦学习的资源效率。来自聚合器的全局状态包括全局模型架构及其参数；来自客户端的本地状态包括计算、网络、内存、能量和模型更新特征；优化动作包括压缩、量化、剪枝及其超参数等权衡技术。FLOAT 使用基于 Q 学习的多目标强化学习，其中每个客户端的 Q 表存储其状态（全局、本地）、动作和 Q 值。全局状态包括全局模型架构，而本地状态包括客户端的资源信息，如计算、网络和能量容量。动作空间包括要选择和配置的优化技术。Q 值（Q(s, a)）表示代理在状态 s 下采取动作 a 并从那时起遵循最优策略所能获得的预期累计奖励。Q 学习中的 Q 值通常使用贝尔曼方程更新，涉及参数：α（学习率）、R(s, a)（在状态 s 下采取动作 a 的即时奖励）和 γ（表示未来奖励与即时奖励价值的折扣因子）。max𝑎’ Q(s’, a’) 表示下一状态 s’ 中可能动作的最大 Q 值。贝尔曼方程的关键概念是它将状态-动作对的 Q 值与后续状态和动作的 Q 值联系起来。贝尔曼方程定义如下：

[ Q(s, a) = (1 - \alpha) \cdot Q(s, a) + \alpha \cdot [R(s, a) + \gamma \cdot \max Q(s’, a’)] ]

新状态的 Q(s’, a’) 独立于 RLHF 代理之前的动作，而依赖于客户端动态资源的可用性，这是不可预测和随机的。因此，我们更新 Q 学习的贝尔曼方程以减少 (\lim_{\gamma \to 0} \gamma) 项，使得更新后的 Q 值不受随机新状态的影响。与 FLOAT 提升模型准确性和提高客户端参与度的目标一致的奖励函数由方程 2 定义。这里，(P_i) 表示客户端 i 的参与成功，(Acc_i) 表示其准确性提升。(w_p) 和 (w_a) 为每个目标分配权重。

[ R_i = w_p \cdot P_i + w_a \cdot Acc_i ]

将准确性纳入多目标奖励函数，使 FLOAT 能够管理不同加速配置对准确性的非线性影响。此外，通过在每轮中利用 RLHF 进行概率性探索和利用，FLOAT 可以自动化滞后加速器以提升性能，减少偏差，并通过主动减少掉线来提高资源效率。我们方法的一个显著优势是其适应性，不仅限于同步 FL。我们还将 FLOAT 集成到异步 FL 中，并且 FLOAT 还可以用于非水平 FL，这将在第7节进一步讨论。

RQ2: 大规模应用 RLHF 的开销

对于那些愿意与中央聚合器共享系统使用数据的客户端（如标准联邦学习协议中所见 [34]），可以集中进行每个设备查找表的训练。然而，对于注重隐私的客户端，可以在本地进行训练，仅需不到一毫秒的额外训练成本，包括通信成本 [34, 80]。因此，FLOAT 可以扩展到任意数量的客户端而不会增加额外的开销。图 8 突出了与训练 RLHF 代理相关的内存开销，展示了内存使用情况与状态和动作数量增加之间的关系。考虑到 FLOAT 可能的状态和动作组合，内存开销不到 0.2 MB，每轮训练的 RLHF 代理的训练开销不到一毫秒。这包括从选择动作到更新 Q 表的总时间。与冗长的聚合过程相比，这些开销是极小的 [32]。

RQ3. 为新工作负载微调 RLHF

FLOAT 可以在聚合器处训练一个集体查找表，以扩展到数百万设备，或者通过有效的微调以最小成本利用预训练的 RLHF 代理 [54, 89]。与现有基于 RL 的工作 [34] 解决异质性问题不同，FLOAT 仅与 RLHF 代理共享系统级资源可用性信息，保护客户端的数据隐私。

举例来说，我们最初使用 ResNet-18 模型按照第 1 节图 5 中的配置，在 FEMNIST 数据集上预训练 FLOAT 中的 RLHF 代理。RLHF 代理在大约 200 轮训练后实现收敛。随后，我们将这个预训练的 RLHF 代理转移到另一个基准数据集，即使用 CIFAR10 数据集的 FL。图 9 展示了 RLHF 代理获得的平均奖励，考虑了模型性能和参与成功率这两个目标。这些结果证明了 RLHF 代理能够有效地进行微调，当应用于新的 CIFAR10 数据集时能够快速收敛。为了进一步展示 RLHF 代理在不同 FL 场景下的适应性，我们将预训练于 FEMNIST 数据集和 ResNet-18 模型上的 RLHF 代理部署到使用 CIFAR10 数据集和 ResNet50 模型的 FL 训练中。显著的是，RLHF 代理仅经过 20 轮训练就进行了微调，通过绝对奖励衡量得到了正奖励。选择绝对奖励指标是有意为之的，因为平均奖励很少达到 100%，这是由于其依赖于准确性提升，而准确性提升实际保持在 100% 以下。这些结果强调了通过预训练的 RLHF 代理初始化 FL 并在几轮内为本地环境进行微调的可行性，而不会产生显著的训练开销。图 10 展示了预训练 RL 代理在三种独特资源情景下的微调使用情况。该图展示了 RLHF 代理针对每种情景调整的多目标 Q 表。从结果中，我们可以辨别出在不同资源环境中应用各种加速技术和配置时参与成功率和准确性提升的差异。这突显了相比于静态优化和启发式解决方案在适应新资源条件方面的局限性，FLOAT 通过其 RLHF 代理的在线学习无缝适应新环境。

特别是，图 10a 显示，当数据是独立同分布（IID）时，准确性提升保持相对稳定。这种稳定性可以归因于以下事实：在 IID 数据的情况下，掉线不会显著影响准确性，因为掉线客户端的数据分布与参与客户端相似，导致训练期间信息损失最小。然而，当我们从应用较不激进的优化（25% 剪枝或部分训练和 16 位量化）转向较激进的优化（75% 剪枝或 8 位量化）时，准确性略有下降。同样的趋势在参与成功率中也有体现。当我们从较不激进的优化方法转向较激进的优化方法时，参与成功率自然增加。

此外，我们观察到，在网络不稳定的情况下，如图 10c 所示，部分训练的成功率最低，而量化和剪枝在参与成功率方面优于部分训练。这种差异可以归因于部分训练主要缓解了计算负担，而剪枝和量化同时缓解了通信负担。因此，当通信成为瓶颈时，部分训练的表现较差，这一经验在 FLOAT 中微调的 RLHF 代理的 Q 表中得到了体现。

RQ4: 嵌入人类反馈

FLOAT 通过整合人类反馈，增强了客户端和聚合器之间的协调，这与设备行为和资源使用模式有内在联系 [2, 28, 50]。在人类反馈的背景下，指的是由人类用户提供的见解或信息，旨在指导和完善强化学习（RL）算法的训练和决策过程 [13, 20]。这种反馈是非常宝贵的。在强化学习中，人类反馈提供了用户的信息，以精炼RL算法的训练和决策 [13, 20]。这种反馈对于客户端参与的决策至关重要，能够提示客户端何时可能重新加入或离开会话。此外，它支持RLHF代理与客户端的独特资源配置对齐，简化代理调优并提高RLHF代理和整个FL过程的收敛速度。除了全面了解资源外，FLOAT 通过人类反馈提取更具体、细粒度的细节。它特别利用关于截止日期差异的反馈，以及从客户端获得的额外系统资源信息。这个截止日期差异显示了客户端通常偏离预定训练轮次截止日期的程度。

为了评估将人类反馈（HF）嵌入FLOAT的RL代理的好处，我们进行了一个消融研究，比较了带有HF的RL代理（FLOAT-RLHF）和不带HF的RL代理（FLOAT-RL）。在这次评估中，我们使用了动态设备干扰设置，特点是客户端资源条件处于波动状态。从这个研究中获得的见解，如图11所示，揭示了当RL代理结合HF时，其表现明显优于标准RL代理。结果表明，准确性提高了10%，客户端掉线减少了2倍（图11左）。通信、计算和内存的资源利用率分别提高了1.5倍、10倍和2倍（图11中）。这种改进主要归功于RLHF使用人类反馈。它利用这些反馈来微调其决策机制并对Q表进行明智的更新。我们研究了优化方法在FLOAT-RLHF和FLOAT-RL中的选择模式、成功率和掉线率。图11（右）显示，没有人类反馈微调的FLOAT-RL效率较低，成功与掉线比率比FLOAT-RLHF差。FLOAT-RL在优化中过度选择客户端，偏向16位量化和75%剪枝，导致更多掉线，准确性和资源效率降低。本质上，人类反馈为RLHF代理提供了关键见解，提高了其通过在线学习管理资源动态的能力。

RQ5: 通过降维扩展 RLHF

客户端的系统资源和人类反馈，尤其是截止日期差异，都是连续值。这带来了一个独特的挑战，特别是因为RLHF与Q学习使用离散值来构建Q表。这样的连续指标可能导致大量的状态可能性，使Q表变得非常庞大且难以管理。使用直方图方法来减少连续变量的维度是普遍做法，将连续指标转换为离散的区间。然而，选择区间的数量至关重要；它直接影响了在连续到离散转换过程中保留的数据细节。

为了确保我们从系统资源和人类反馈中捕捉到最优的信息量，我们采用了一种统计降维方法。这个方法首先确定客户端资源指标（计算、通信、能量、截止日期差异）的方差。随后，使用这个方差，我们为这些区间建立百分位边界。经过广泛评估，我们发现将这些指标指定为5个离散状态可以提供最平衡的性能。少于5个状态会削弱信息的丰富性并减慢与Q学习配对的RL代理的收敛速度。相反，超过5个状态则会增加探索时间，却只带来边际的性能提升。表1展示了增加搜索空间的全局参数、运行时方差和人类反馈变量。添加新的加速技术会增加动作数量，从而扩展动作空间。然而，与深度强化学习不同，FLOAT中使用的Q学习方法更简单高效。Q学习的搜索空间由状态（S）和动作（A）的数量定义。添加一种新的加速技术会将动作增加一个，从而按S扩展RL代理的探索空间。通过对S进行统计降维，FLOAT确保搜索空间的线性且最小的增加，从而有助于RL代理在大规模上的高效收敛和微调。

RQ6: RLHF 的奖励和探索策略

奖励选择在确定 RL 代理的收敛速度中起着关键作用。最初，我们发现直接将准确性作为奖励会导致两个问题。首先，由于贝尔曼方程1的累加特性，在探索过程中选择的动作通常具有更高的总准确性奖励分数。为了解决这个问题，我们从直接分数累积转向计算其移动平均值。这个方法也适用于另一个奖励，即参与成功率，确保我们多目标 RLHF 代理中的每个目标都有一致的分数。其次，我们注意到准确性在不同轮次之间存在时间变化，导致其作为 RLHF 代理更新时的一致奖励变得复杂。特别是，准确性在初始轮次的增长显著高于后期轮次。为了解决这个问题，我们在 RLHF 训练中引入了动态学习率。这个学习率由 FL 过程中的进展控制。虽然学习率在早期轮次开始较低，但在整个训练过程中逐渐增加，但从不超过 1.0 的上限。此外，我们还发现动作选择存在不平衡，偏向特定的加速配置。为了解决这个问题，我们调整了探索函数，以优先考虑探索较少的动作。这种刻意的调整确保了所有动作的更均衡探索，结果是一个更容易调优的 RLHF 代理。

RQ7: 接收掉线客户端的反馈

训练 RLHF 代理需要在每次动作后接收反馈以进行学习。然而，在每个周期后对每个客户端进行推断是计算密集型的。因此，我们优先验证活跃的贡献者，尤其是那些经历了加速的客户端。这些反馈用于更新 RLHF 代理的 Q 表。当应用加速技术的客户端掉线时，会导致 RLHF 训练缺少他们的反馈，进而带来挑战。为了解决这个问题，我们缓存相似客户端的反馈，并将其与掉线客户端的过去改进结合起来，估算他们的奖励。这确保了 RLHF 为所有动作接收到反馈，从而加速收敛。我们在算法1中提供了FLOAT设计的步骤。

6 评估

6.1 评估设置

为了进行端到端比较，我们使用NVIDIA GeForce RTX 3070 GPU，在各种模型和数据集上将FLOAT与其他算法进行比较。我们的FLOAT实现基于FedScale [38]，这是最近用于该领域其他重要贡献的一个平台 [2, 16, 39]。

系统配置：
我们在模拟环境中使用三个真实的跟踪数据来模拟客户端的可用性、计算能力和网络带宽，以反映真实世界的资源状况。

客户端可用性跟踪：我们使用来自 [76] 的可用性跟踪数据来模拟客户端设备的能量可用性条件。这个跟踪数据基于客户端剩余能量水平提供了训练的可用性洞察。
计算可用性跟踪：基于 [27]，我们使用一个计算跟踪数据，该数据详细描述了超过950个不同移动和边缘设备在25个不同模型上的训练时间。
网络带宽跟踪：为了反映真实世界的网络状况，我们采用了来自 [50] 的网络跟踪数据。这个跟踪数据包括在不同条件下（如在车辆移动或步行时）记录的4G和5G网络环境下的各种移动设备的数据。

我们的模拟采用了图4中描述的动态设备内干扰系统配置，确保了对潜在系统资源情景的全面覆盖。据我们所知，我们的模拟器在FL工作负载的真实性方面无与伦比。Oort使用计算和网络数据来模拟客户端响应时间进行选择，但没有直接评估资源的丰富或匮乏。REFL同样依赖响应时间，但不区分资源的盈余或短缺，这是知情优化和配置选择的关键。REFL通过预测未来窗口来区别，但简化了客户端可用性为一个维度的窗口。此外，Oort和REFL都认为客户端的计算和网络容量等资源始终保持不变，这是另一个不现实的假设 [15, 50]。AutoFL [34]专注于能量利用。在同步FL中，如 [49] 和 FedBuff [51]，动态客户端资源可用性通常被忽略。这些方法都没有考虑计算、网络、能量和内存资源的组合动态性，这对于自适应优化和配置选择至关重要。

数据集、模型和任务：
我们在三个不同的数据集上进行了测试：CIFAR10 [36]、FEMNIST [7] 和 OpenImage [37] 用于视觉任务，以及一个用于语音识别的Google数据集 [69]，使用 Dirichlet alpha 0.1，确保我们方法的多样性评估。客户端选择研究 [2, 34, 39, 49, 51] 通常假设聚合服务器拥有IID数据集。这是不现实的，因为真实的IID数据集需要知道客户端的私有数据分布，聚合器无法访问。因此，我们依赖于使用客户端的非IID数据集计算准确性。为了标准化，我们在所有测试中使用一致的配置。我们使用 Resnet34 模型，学习率为0.01，批量大小为20，每轮训练5个本地周期，共300轮。从200个全局客户端池中，每次训练迭代采样30个客户端。在FedBuff的背景下，我们允许100个客户端同时异步训练，并保留30个客户端的缓冲。

据我们所知，针对自适应优化选择和配置的研究有限。因此，我们将FLOAT与四种著名的客户端选择算法进行比较：REFL [2]、Oort [39] 和 FedAvg [49]（同步FL算法），以及FedBuff [51]（异步FL算法）。重要的是，我们没有将FLOAT与REFL结合使用，因为它们的假设存在根本差异。REFL假定客户端的未来可用窗口是可预测的，而我们认为这种前提不现实，因为影响客户端窗口动态的因素很多，包括系统、网络、能量和客户端意愿 [15, 30, 50, 53]。

指标：
我们将FLOAT纳入基线方法，并使用三个指标评估它们的性能。首先，我们测量前10%、平均和后10%客户端的准确性，以识别潜在的偏差并评估整体性能。接下来，我们跟踪训练期间的掉线数量和FLOAT自适应优化后的保留情况。最后，我们评估资源低效情况，查看因客户端掉线造成的总计算和通信时间（小时）以及内存低效（TB）。这些指标一起提供了FLOAT整合到基线方法中的改进的全面评估。

6.2 端到端性能

我们对FLOAT进行了端到端评估，比较了其在三种不同数据集上的性能，如图12所示。我们的研究结果表明，使用FLOAT可以显著提高所有算法的准确性，尤其是在FEMNIST和CIFAR10数据集上。最明显的准确性提升出现在FedAvg和Oort算法中。

FedBuff是一种异步FL算法，可以同时训练五倍于其同步对手的客户端。它使用缓冲区进行结果聚合，对资源波动和客户端掉线具有较强的抵抗力。因此，将FLOAT与FedBuff配对并不能提供与同步FL一样多的改进。然而，FedBuff的过度选择策略导致了显著的资源低效，如图12a和12c所示，FLOAT与FedBuff结合显著减少了这种低效。FedAvg在资源低效方面与FedBuff类似，但采用了一种简单的客户端选择方法，选择客户端时不考虑资源可用性。因此，我们在FLOAT (FedAvg) 中看到了最显著的改进。相反，REFL表现出最差的准确性，因为它过度依赖于预测客户端的可用窗口。不幸的是，它假设客户端资源将保持不变，这在动态变化的环境中导致了次优预测，导致的掉线比其他算法更多。

FLOAT，特别是FLOAT (FedAvg) 和FLOAT (FedBuff)，在准确性方面表现最为突出。这可以归因于FedAvg和FedBuff采用的无偏客户端选择方法。相反，Oort的选择依赖于客户端效率，这在动态变化的资源环境中可能是次优的。在一个轮次中表现高效的客户端在随后的轮次中可能不会表现出同样的效率。FLOAT还提高了模型准确性，如图12（第一行）所示，对于FEMNIST数据集准确性提高了16%到53%，CIFAR10提高了1%到20%，Speech数据集提高了最多3%。FLOAT在Speech数据集上的准确性表现保持一致，主要是因为其训练所需资源较低且收敛速度较快。因此，它经历的掉线较少，提供了有限的机会让FLOAT进一步减少掉线率并显著提高准确性。

如图2a所示，Oort展示了偏向选择高效客户端的倾向。FLOAT在300轮训练中显著减少了FEMNIST数据集的掉线总数3×-18×，CIFAR10的3×-78×，Speech数据集的2×-54×。这种减少对资源低效有连锁效应。当客户端保持活跃时，他们的进度会贡献到FL训练中，投入训练和传输模型到聚合器的计算和通信时间成为最终聚合模型的有价值部分。相反，当客户端掉线时，其训练、传输和存储中投入的能量、通信、计算和内存资源被浪费，因为其输入不再对FL有贡献。此外，分配给FL训练的资源本可以被其他共置应用程序使用，导致机会成本。我们还通过计算模型训练时间和更新模型的往返通信时间来量化计算和通信低效。内存低效则以训练和模型存储期间使用的TB数计算。第二行图12显示了这些结果。我们在所有200个客户端中计算这些低效情况，每轮选择30个客户端进行同步FL训练，在异步FL（FedBuff）中同时选择100个客户端进行训练，历时300轮训练，每轮包括5个本地周期。

FLOAT显著提高了资源效率，特别是在FedAvg和FedBuff中。FedBuff过度分配资源以应对客户端掉线，导致显著的资源低效，而FedAvg的随机客户端选择方法选择的客户端更容易掉线。FLOAT显著提高了总计算效率，为FEMNIST节省了468到7013小时（2×-28×），为CIFAR10节省了7到259小时（2×-44×），为Speech数据集节省了13到547小时（1.4×-36×）。基于4G跟踪数据的通信时间减少了0.3到7小时（FEMNIST 3×-47×）和CIFAR10（3×-81×），以及Speech数据集的0.3到7.4小时（2×-51×）。内存效率提高了2到25 TB（FEMNIST 3×-14×），CIFAR10的0.5到12 TB（2×-12×），Speech数据集的0.7到12 TB（2×-12×）。

复杂数据集上的性能：
我们进一步评估了FLOAT在更复杂数据集上的性能，与最新的算法进行比较。为此，我们使用了包含160万张图像的OpenImage数据集 [37]。此外，我们使用第6.1节中描述的相同设置，但将Resnet34模型替换为ShuffleNet模型 [87]，以符合评估OpenImage数据集相关工作的模型选择 [2, 39]。图13中展示的结果与图12中观察到的结果一致。FedAvg算法由于缺乏复杂的客户端选择机制，倾向于选择更容易掉线的客户端。相反，Oort由于其选择更可能完成训练的客户端的策略，表现有所改善。然而，REFL过于强调预测客户端的可用窗口，使其对掉线最为脆弱。FedBuff通过过度选择客户端来抵消掉线带来的性能下降，表现与Oort相当。然而，过度选择导致了资源低效。另一方面，FLOAT显著提高了准确性和资源效率，特别是在FedAvg和FedBuff中。总体而言，使用OpenImage数据集，FLOAT提高了8%到39%的准确性。FLOAT还提高了累计客户端计算资源效率1200到1160小时（3×-233×），总通信效率3.8到46小时（3×-46×），总内存效率3到38 TB（2×-20×）。

7 讨论

改进客户端选择算法设计

如图12所示的另一有趣发现是，随机选择算法出乎意料地优于智能客户端选择方法。进一步观察显示，许多客户端选择算法假设客户端的资源在整个训练过程中保持一致。这一观点在像Oort [39] 这样的算法中是基础。尽管最近的研究现在加入了预测客户端波动的可用窗口 [2] 或选择节能客户端 [34]，但它们并没有完全考虑影响训练性能的所有资源动态。这些研究通常集中于单一因素，如设定的可用窗口 [2]，响应速度 [39] 或能效 [34]。这一疏忽突显了一个重要的研究空白，强调了在改进客户端选择策略时需要考虑客户端资源的变异性。

FLOAT 的局限性

FLOAT在资源有限的跨设备联邦学习中表现出色，通过自适应加速优化减少掉线和提高资源效率。然而，在资源丰富的环境中或当减少掉线不那么重要时，如FedBuff的过度选择策略，其优势会减弱。为了在这种情况下提高准确性，FLOAT在其RLHF代理中集成了加权多目标奖励方程，使用户可以优先考虑准确性，而不是资源效率和减少掉线。

FLOAT 用于非水平联邦学习

垂直联邦学习（VFL）涉及具有不同数据特征的客户端，使用分割 [59] 或上下模型 [70]。混合联邦学习（Hybrid FL）结合了水平和垂直方法。鉴于本地客户端训练需求的一致性，FLOAT可以轻松整合到VFL和混合FL中，无需结构调整。

8 结论

本文介绍了FLOAT，这是一种多目标强化学习系统，利用人类反馈来自动选择和配置联邦学习（FL）训练中的加速器。我们的实验表明，FLOAT是一种多功能、高效且可扩展的解决方案。它可以以最低成本针对新的工作负载进行微调，从而提高准确性和资源效率。

当前联邦学习方法的缺点及其使用FLOAT的改进

方法	缺点	使用FLOAT的改进
FedAvg [49] (同步)	不考虑客户端资源的动态可用性	通过减少掉线数量来提高资源效率
Oort [39] (同步)	假设客户端资源恒定，导致次优选择	通过基于动态资源的加速优化来增强客户端参与度
REFL [2] (同步)	依赖于未来可用性预测，没有考虑动态资源，增加了掉线	通过动态配置加速来最小化掉线，尤其是对于资源较少的客户端
FedBuff [51] (异步)	过度选择策略导致资源低效	通过加速滞后客户端来提高资源效率并减少选择偏差