面向高性能计算环境的作业优化调度模型的设计与实现-学术咨询网
计算机工程与科学

计算机工程与科学杂志

  • 北大期刊
  • CSCD
  • 统计源期刊
  • 知网收录
  • 维普收录
  • 万方收录
基本信息
  • 主管单位:

    国防科技大学

  • 主办单位:

    国防科技大学计算机学院

  • 国际刊号:

    1007-130X

  • 国内刊号:

    43-1258/TP

  • 创刊时间:

    1973

  • 期刊类别:

    计算机期刊

  • 出版社:

    计算机工程与科学

  • 主编:

    王志英

  • 发行周期:

    月刊

出版信息
  • 审稿周期:

    1-3个月

  • 被引次数:

    19216

  • 邮发代号:

    42-153

  • 全年定价:

    ¥796.00

  • 他引率:

    0.9643

  • 邮编:

    410073

期刊详情 投稿咨询 关注公众号

面向高性能计算环境的作业优化调度模型的设计与实现

作者:王小宁,肖海力,曹荣强
关键词:
摘要:高性能计算环境聚合了多个分布在不同地域、不同组织机构的高性能计算资源,面向用户提供统一的访问入口和使用方式,由系统中间件根据用户作业请求匹配合适的高性能计算资源

高性能计算环境聚合了多个分布在不同地域、不同组织机构的高性能计算资源,面向用户提供统一的访问入口和使用方式,由系统中间件根据用户作业请求匹配合适的高性能计算资源。随着环境应用编程接口的开放以及作业请求数量的大幅增加,面对高并发作业提交请求时,目前采用的即时调度模型会由于网络等原因导致一定数量的请求处理失败,同时缺乏灵活性。针对此问题,优化了环境作业调度模型,引入作业环境队列,细化了作业系统层状态,增加了作业调度策略可配置性,并基于环境中间件SCE实现了系统原型。经测试,在单核心服务每分钟处理近200个作业提交请求的工作负载下,无因系统和网络原因引起的作业提交出错现象;在共计1 000个作业中,近500个作业提交命令请求在0.3 s以内完成,800余个作业提交命令请求在0.5 s以内完成。


The high performance computing environment is a computing platform, which aggregates multiple distributed high performance computers from indifferent organizations, providing users with unified access and usage patterns. The system middleware matches the appropriate highperformance computing resources according to users’job request. With the opening of the environment programming interface (API) and the substantial increase in the number of job submission requests, some job submission requests fail because of too many network connections under high concurrent job submission requests. Also, the job scheduling strategy is lack of flexibility. We propose an optimized job scheduling model in the high performance computing environment, which introduces environment job queues, refines the systemlevel status for each job, and increases the configuration of job scheduling strategy. We also implement a prototype system based on middleware SCE. Test results show that no job request fails under the workload of 200 job requests each minute in a single system service. In a total of 1000 jobs, nearly 500 job submissions are completed within 0.3 seconds, and more than 800 job submissions are completed in less than 0.5 seconds.
相关文章
[1]张逢, 文斌, 闫一非, 曾昭武, 周伟, . 身份加密多云多副本完整性审计协议[J]. 计算机工程与科学, 2024, 46(03): 453-462.
[2]朱正东, 吴寅超, 胡亚红, 蒋家强. 基于LSTM的集群用户作业执行时间预测模型[J]. 计算机工程与科学, 2022, 44(08): 1331-1341.
[3]陈奉贤. 基于NR-Transformer的集群作业运行时间预测[J]. 计算机工程与科学, 2022, 44(07): 1181-1190.
[4]雷擎. 基于Kubemark的微服务性能仿真测试研究[J]. 计算机工程与科学, 2020, 42(07): 1151-1157.
[5]何望1,2,林果园1,2. 基于FP-Growth改进算法的云服务器故障数据分析[J]. 计算机工程与科学, 2020, 42(05): 770-775.
[6]彭定洪1,2,陈文妮1,2,曾洪鑫3,武金福4. 多源信息云服务质量的犹豫模糊优劣IPA评价方法[J]. 计算机工程与科学, 2020, 42(05): 910-922.
[7]郑文旭,潘晓东,马迪,汪浩. 用于高性能计算的作业调度能效性研究综述[J]. 计算机工程与科学, 2019, 41(09): 1526-1533.
[8]肖永浩,许伦凡,熊敏. GA-Sim:一种基于分类和实例学习相结合的作业运行时间预测算法[J]. 计算机工程与科学, 2019, 41(06): 987-992.
[9]刘玮1,邹璐琨2,霸元婕2,李广力3,4,张志刚1. 基于凸函数证据理论的关联感知云服务信任模型[J]. 计算机工程与科学, 2019, 41(01): 47-55.
[10]叶枫1,2,胡程1,黄倩1,陈勇2. 基于云服务的AI玩偶的研究及在教育教学中的应用[J]. 计算机工程与科学, 2018, 40(增刊S1): 72-80.
[11]蒋冰婷1,胡志刚1,马华2,姚景1. 基于时间感知排序的云服务QoS预测方法研究[J]. 计算机工程与科学, 2018, 40(07): 1173-1179.
[12]李耀芳1,2,吴斌2,肖杰2,李玮1,刘琦1,孙莹光1. 基于骨干网的数据中心网络服务规划设计[J]. 计算机工程与科学, 2017, 39(07): 1281-1287.
[13]杨晚林1,王兴伟1,张爽2,黄敏3. 面向云联网的云服务协商机制[J]. 计算机工程与科学, 2016, 38(08): 1557-1562.
[14]江涛1,袁景凌1,陈旻骋1,宋华明2. 基于加速收敛蜂群算法的资源感知调度器[J]. 计算机工程与科学, 2016, 38(08): 1595-1601.
[15]肖文娟,段玉聪. 基于时间序列的感知QoS的云服务组合[J]. J4, 2014, 36(11): 2061-2066.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社