计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

基于MapReduce的混合连接算法

  

  1. (重庆大学计算机学院,重庆400044)
  • 收稿日期:2015-01-27 出版日期:2015-06-16 发布日期:2015-06-18
  • 作者简介:胡龙(1988-),男,安徽亳州人,重庆大学计算机学院硕士研究生,研究方向:数据库应用系统; 罗军(1962-),男,重庆人,副教授,硕士生导师,研究方向:大型网络及数据库,大型MIS系统建模及设计,数据库应用系统及办公自动化。

 Hybrid Join Algorithm Based on MapReduce

  1. (College of Computer Science, Chongqing University, Chongqing 400044, China)
  • Received:2015-01-27 Online:2015-06-16 Published:2015-06-18

摘要: 运行在Hadoop上的数据仓库Hive可以让更多的用户通过SQL接口来处理Hadoop数据。然而,Hive却没有为连接操作提供有效的途径,而连接操作是一种常见且在Hadoop中非常费时的操作。为了解决连接操作在Hadoop中性能的问题,本文提出一种混合策略的连接算法HJA,根据当前应用场景在几种连接算法之间选择相对较合适的算法,实验结果表明,HJA可以在大多数的Hadoop场景中发挥很好的性能。

关键词: MapReduce, Hadoop, 分区连接, autotunning, Hive

Abstract: Hive, the database on Hadoop, enables more users to process relation data by providing sqllike interface. However, Hive does not provide an efficient approach for join, a common but expensive operator in Hadoop. In order to solve the performance of join, this paper proposes a novel hybrid algorithm, HJA, which can help to automatically choose the relatively better one among several methods, according to the current situation. Experiments results show that HJA can get best performance in most situations.

Key words: MapReduce, Hadoop, partition join, autotuning, Hive

中图分类号: