一种基于MapReduce的并行聚类模型

计算机与现代化 ›› 2014, Vol. 0 ›› Issue (1): 90-92,108.

一种基于MapReduce的并行聚类模型

1．内蒙古科技大学内蒙古白云鄂博矿多金属资源综合利用重点实验室，内蒙古包头014010；
2．内蒙古科技大学信息办与网络中心，内蒙古包头014010

收稿日期:2013-08-30 出版日期:2014-01-20 发布日期:2014-02-10
作者简介: 顾瑞春（1982-），男，内蒙古武川人，内蒙古科技大学内蒙古白云鄂博矿多金属资源综合利用重点实验室讲师，硕士，研究方向：数据挖掘与知识发现；王静宇（1976-），河南开封人，内蒙古科技大学信息办与网络中心副教授，博士研究生，研究方向：云计算与网格计算。
基金资助:
内蒙古科技大学创新基金资助项目（2011NCL054）；内蒙古科技大学教学改革研究项目（JY2011027）

A Parallel Clustering Model Based on MapReduce

1. Key Laboratory of Integrated Exploitation of Bayan Obo Multi-Metal Resources, IMUST, Baotou 014010, China;

2. Information Center, IMUST, Baotou 014010, China

Received:2013-08-30 Online:2014-01-20 Published:2014-02-10

摘要/Abstract

摘要： 在对海量数据进行聚类的过程中，传统的串行模式局限性越来越明显，难以在有效时间内得出满意结果的问题，本文提出一种基于Hadoop 平台下MapReduce框架的并行聚类模型。理论和实验结果证明该模型具有接近线速的加速比，针对海量数据具有较高效率。

关键词: , 数据挖掘, 算法, 云计算, MapReduce, Hadoop

Abstract: During the clustering for big scale data, the traditional serial model has limitations, can not obtain a satisfied results within significant intervals. This paper proposes a concurrent clustering model based on MapReduce architechture under the Hadoop platform. The experiment result shows this model has a perfect linear speedup, and it outperforms the traditional clusting model, especially in dealing with massive data set.

Key words: data mining, algorithm, cloud computing, MapReduce, Hadoop

顾瑞春1，王静宇2. 一种基于MapReduce的并行聚类模型[J]. 计算机与现代化, 2014, 0(1): 90-92,108.

GU Rui-chun1, WANG Jing-yu2. A Parallel Clustering Model Based on MapReduce[J]. Computer and Modernization, 2014, 0(1): 90-92,108.

参考文献

［1］
刘洋. 基于MapReduce的中医药并行数据挖掘服务［D］. 杭州：浙江大学, 2010.
［2］李成华,张新访,金海,等. MapReduce:新型的分布式并行计算编程模型［J］. 计算机工程与科学, 2011,33(3):129-135.
［3］郝晓飞,谭跃生,王静宇. Hadoop平台上Apriori算法并行化研究与实现［J］. 计算机与现代化, 2013(3):1-5.
［4］施佺,肖仰华,温文灏,等. 基于Mapreduce的大规模社会网络提取方法研究［J］. 计算机应用研究, 2011,28(1):145-148.
［5］刘永增. 基于Hadoop/Hive的海量Web日志处理系统的设计与实现［D］. 大连：大连理工大学, 2011.
［6］舒琰,向阳,张骐,等. 基于PageRank的微博排名MapReduce算法研究［J］. 计算机技术与发展, 2013,23(2):73-76,81.
［7］张宇,程久军. 基于MapReduce的矩阵分解推荐算法研究［J］. 计算机科学, 2013,40(1):19-21,36.
［8］丁光华,周继鹏,周敏. 基于MapReduce的并行贝叶斯分类算法的设计与实现［J］. 微计算机信息, 2010,36(9):190-191,176.
［9］艾树宇. 基于Hadoop/MapReduce的K_NN算法［J］. 科技传播, 2013(1):203-204,200.
［10］孟海东,杨彦侃. 并行聚类算法的设计与研究［J］. 计算机与现代化, 2010(8):5-8.
［11］王淑玲. 增量聚类算法的设计与实现［D］. 包头：内蒙古科技大学, 2009.
［12］戎翔,李玲娟. 基于MapReduce的频繁项集挖掘方法［J］. 西安邮电学院学报, 2011,16(4):37-39,43.
［13］梁建武,周杨. 一种异构环境下的Hadoop调度算法［J］. 中国科技论文, 2012,7(7):495-498.
［14］李锐,王斌. 文本处理中的MapReduce技术［J］. 中文信息学报, 2012,26(4):9-20.
［15］周迎春,骆嘉伟. 一种改进的BIRCH聚类分析算法及其应用研究［J］. 湛江师范学院学报, 2009,30(3):83-87.

[1]	赵晨阳, 薛涛, 刘俊华. 基于改进Stable Diffusion的时尚服饰图案生成[J]. 计算机与现代化, 2024, 0(12): 15-23.
[2]	王晓航1, 李永杰1, 余雷1, 范萧2. 一种利用复合事件概率运算解决负信息抑制最大化问题的方法[J]. 计算机与现代化, 2024, 0(12): 24-33.
[3]	吕美静1, 年梅1, 张俊1, 2, 付鲁森1. 基于自编码器的网络流量异常检测[J]. 计算机与现代化, 2024, 0(12): 40-44.
[4]	万兵1, 2, 3, 赵文涛4, 潘多涛1, 赵峥韬2, 3, 孙朝阳2, 3, 俞建成2, 3. 无人帆船半物理仿真测试系统设计[J]. 计算机与现代化, 2024, 0(12): 91-99.
[5]	龚谊承1, 2, 刘青1, 2. 基于RF-LCE-BiLSTM-Attention-AMSSA模型的京剧二分类[J]. 计算机与现代化, 2024, 0(11): 7-12.
[6]	袁庆乐, 牟莉. 基于改进Elman神经网络的预测方法[J]. 计算机与现代化, 2024, 0(11): 28-33.
[7]	陈宇航1, 杨勇1, 帕力旦·吐尔逊1, 樊小超1, 任鸽1, 刁宇峰2. 融合句法特征与语义特征的作文自动评分方法[J]. 计算机与现代化, 2024, 0(11): 64-69.
[8]	李钧超1, 尤菲1, 张超2, 苏乐乐2, 龚龑2. 基于新型多目标浣熊优化算法的BiLSTM-Attention#br# 预测模型及误差分析[J]. 计算机与现代化, 2024, 0(11): 70-76.
[9]	张志霞, 秦志毅. 基于变分模态分解和IGJO-SVR的网络舆情预测[J]. 计算机与现代化, 2024, 0(11): 77-83.
[10]	杨正科, 沈小东, 王凯翔, 何立. 基于改进麻雀搜索算法的接地网腐蚀故障定位[J]. 计算机与现代化, 2024, 0(10): 14-20.
[11]	黄杉杉1, 吴巍2, 徐雨晴1, 魏婕1. 基于改进Mask R-CNN和LSD的图纸管道检测方法[J]. 计算机与现代化, 2024, 0(10): 42-48.
[12]	杜猛俊1, 李昂1, 童俊1, 钱锦1, 康恺1, 王若丁1, 靳文星2. 基于改进极限学习算法的电力信息数据融合模型[J]. 计算机与现代化, 2024, 0(10): 61-64.
[13]	王佳1, 顾文俊1, 鞠炜刚2, 李玉维1, 张云龙2, 米传民3, 周志鹏3. 基于多元级差优良化遗传算法的环境拓扑结构任务调度[J]. 计算机与现代化, 2024, 0(10): 65-73.
[14]	于天一, 李剑锋, 陈海龙, 翟军. 隐性角色下的协同推荐算法[J]. 计算机与现代化, 2024, 0(09): 1-7.
[15]	张惠楠1, 张强1, 孙红霞2. 基于改进时序胶囊网络的油藏生产动态分析模型[J]. 计算机与现代化, 2024, 0(09): 15-19.