计算机与现代化

• 网络与通信 • 上一篇    下一篇

异构环境下Hadoop推测执行算法

  

  1. 长沙理工大学经济与管理学院,湖南长沙410114
  • 收稿日期:2015-03-10 出版日期:2015-08-08 发布日期:2015-08-19
  • 作者简介:祁鹏年(1992-),男,青海海东人,长沙理工大学经济与管理学院本科生,CCF学生会员,研究方向:数据挖掘,嵌入式开发,Hadoop性能调优; 朱晋(1970-),男,湖南长沙人,副教授,本科,研究方向:信息技术,电子商务,ERP; 郝君慧(1993-),女,河北张家口人,本科生,研究方向:管理信息系统; 许丰平(1994-),男,福建泉州人,本科生,研究方向:数据挖掘,管理信息系统。

Hadoop Speculation Execution Algorithm in Heterogeneous Environments

  1. School of Economics and Management, Changsha University of Science & Technology, Changsha 410114, China
  • Received:2015-03-10 Online:2015-08-08 Published:2015-08-19

摘要: 研究和分析Hadoop推测执行算法在异构环境下性能较差的问题,在深入研究源码的基础上提出改进算法。该算法根据系统负载情况自动调节后备任务的执行,实现系统负载均衡。采用Zaharia提出的历史平均剩余完成时间来估计剩余时间,并使用剩余时间值大于20%的方法来判断掉队者,进而得到更精确的掉队者队列。该算法在一定程度上提高了异构环境中推测执行的性能。

关键词: Hadoop, 性能优化, 推测执行算法

Abstract: This article researches and analyzes the poor performance of the Hadoop speculation execution algorithm in heterogeneous environments, and puts forward a new improvement algorithm after researching source code deeply. The new algorithm can adjust the execution of backup task automatically to make it balanced according to system load condition, and get more precise stragglers queues using the way of putting the residual time value greater than 0.2 in task queue to judge the stragglers, based on the historical average completion time proposed by Zaharia. The new algorithm to a certain extent improves the performance of speculation execution in the heterogeneous environments.

Key words: Hadoop, performance optimization, speculation execution algorithm

中图分类号: