计算机与现代化 ›› 2025, Vol. 0 ›› Issue (12): 38-45.doi: 10.3969/j.issn.1006-2475.2025.12.006
摘要:
摘要:针对高性能计算中心尤其是中小规模计算中心因异构算力资源分散化导致无法承担大规模计算作业问题,设计并实现一种异构算力资源融合调度平台,实现对X86、ARM等异构算力资源的统一纳管与协同计算。平台采用分层融合调度架构,利用集群管理服务(CMS)与作业管理器(JMC)动态监控资源状态,借助作业调度器(JS)实现计算任务在异构计算节点间的协同并行计算。通过主从式JMC进程协同以及消息传递接口MPI(Message Passing Interface)规约机制,实现物理机层面的跨架构数据同步,首次实现物理机层面单一作业在异构计算节点并行计算。针对异构集群性能不均衡引发的长尾延迟效应及产生的同步开销问题,本文提出时限约束最小资源配置算法(DCMR),在保证作业完成时限的前提下,最小化计算资源投入。测试结果表明,平台在异构环境下计算性能几乎无损失。DCMR算法有效提升了异构计算资源的利用效率,为应对异构计算环境提供了可靠的系统解决方案。
中图分类号: