CSE研究人员最近发表的研究可以使训练机器学习(ML)模型更公平,更快速。Mosharaf Chowdhury教授和美国石溪大学的一个团队通过使用一种名为AlloX的工具,开发了一种新的方式来公平地调度数据中心中的大量ML作业,这些数据中心使用多种不同类型的计算硬件,例如CPU,GPU和专用加速器。随着这些所谓的异构集群逐渐成为常态,像AlloX这样的公平调度系统将成为其高效运营所必需的。
该项目是Chowdhury实验室的新步骤,该实验室最近发布了许多工具,旨在加快ML模型的训练和测试过程。他们过去的项目Tiresias和Salus加速了多种规模的GPU资源共享:既在单个GPU(Salus)内,又在群集中的多个GPU(Tiresias)之间。
但是,AlloX解决了异构集群,该集群带来了一个新问题:不同的硬件最适合不同类型的计算任务。尽管期望与数据集群的工作总是有差异,但是对于给定的工作,哪种硬件最合适也有所不同。
多种不同类型的硬件可能能够运行一个给定的模型,但是根据其计算特性,每个模型可以具有截然不同的速度。如果需要大量的顺序执行,那么GPU不太适合,但是如果它严重依赖矩阵乘法,则CPU不能很好地工作。随着新加速器的不断开发,不同的通用操作总是在寻找更好的选择来快速执行。
Chowdhury说:“每个工作负载都有其独特的特性,可以使独特的加速器发光。这就是为什么架构研究人员正在构建如此多的新加速器的原因。”
这种不匹配的硬件提出了数据集群公平性问题的新方面。在工作量持续不断的情况下,调度程序不仅必须寻找最佳的平均运行时间来保持中心运行,而且还必须寻找不会随意拖延某些工作以追求整体性能的计划。按照Chowdhury的说法,计算能力的分布可为不同的个人用户带来广泛不同的性能结果。
他说:“如果集群不公平,那么某些人将受到太多惩罚,他们的计算时间将任意增加。”