计算机与现代化 ›› 2014, Vol. 0 ›› Issue (1): 90-92,108.

• 算法设计与分析 • 上一篇    下一篇

一种基于MapReduce的并行聚类模型

  

  1. 1.内蒙古科技大学内蒙古白云鄂博矿多金属资源综合利用重点实验室,内蒙古包头014010;
     2.内蒙古科技大学信息办与网络中心,内蒙古包头014010
  • 收稿日期:2013-08-30 出版日期:2014-01-20 发布日期:2014-02-10
  • 作者简介: 顾瑞春(1982-),男,内蒙古武川人,内蒙古科技大学内蒙古白云鄂博矿多金属资源综合利用重点实验室讲师,硕士,研究方向:数据挖掘与知识发现; 王静宇(1976-),河南开封人,内蒙古科技大学信息办与网络中心副教授,博士研究生,研究方向:云计算与网格计算。
  • 基金资助:
     内蒙古科技大学创新基金资助项目(2011NCL054); 内蒙古科技大学教学改革研究项目(JY2011027)

 A Parallel Clustering Model Based on MapReduce

  1. 1. Key Laboratory of Integrated Exploitation of Bayan Obo Multi-Metal Resources, IMUST, Baotou 014010, China;

     2. Information Center, IMUST, Baotou 014010, China
  • Received:2013-08-30 Online:2014-01-20 Published:2014-02-10

摘要:  在对海量数据进行聚类的过程中,传统的串行模式局限性越来越明显,难以在有效时间内得出满意结果的问题,本文提出一种基于Hadoop 平台下MapReduce框架的并行聚类模型。理论和实验结果证明该模型具有接近线速的加速比,针对海量数据具有较高效率。

关键词:  , 数据挖掘, 算法, 云计算, MapReduce, Hadoop

Abstract: During the clustering for big scale data, the traditional serial model has limitations, can not obtain a satisfied results within significant intervals. This paper proposes a concurrent clustering model based on MapReduce architechture under the Hadoop platform. The experiment result shows this model has a perfect linear speedup, and it outperforms the traditional clusting model, especially in dealing with massive data set.

Key words: data mining, algorithm, cloud computing, MapReduce, Hadoop