并行数据挖掘方法在水利普查成果分析中的应用

doi:10.3969/j.issn.1006-2475.2015.10.023

计算机与现代化 ›› 2015, Vol. 0 ›› Issue (10): 107-111.doi: 10.3969/j.issn.1006-2475.2015.10.023

并行数据挖掘方法在水利普查成果分析中的应用

(河海大学计算机与信息学院，江苏南京 210098)

收稿日期:2015-05-29 出版日期:2015-10-10 发布日期:2015-10-10
作者简介:丁伟(1988-)，男，安徽安庆人，河海大学计算机与信息学院硕士研究生，研究方向：云计算与数据挖掘; 万定生(1963-)，男，江苏溧阳人，教授，研究方向：数据管理与数据挖掘; 樊龙(1988-)，男，河南南阳人，硕士研究生，研究方向：云计算与数据挖掘。
基金资助:
水利部公益性行业科研专项(201501022)

Parallel Data Mining Methods in Analysis of Results of Water Census

(College of Computer and Information, Hohai University, Nanjing 210098, China)

Received:2015-05-29 Online:2015-10-10 Published:2015-10-10

摘要/Abstract

摘要： 随着第一次全国水利普查的结束，海量的水利普查数据随之产生。将云计算技术应用在水利普查数据挖掘领域，可以更加快速、高效和低成本地为水利决策提供科学、合理的支持。本文提出基于Map/Reduce的水利普查数据决策树分类挖掘方法MRC4.5算法，并将该算法应用于全国水利普查地下水取水井数据挖掘中。实验结果表明，与传统的C4.5算法相比，MRC4.5算法在处理大规模数据集时具有更高的执行效率和良好的加速比。

关键词: 水利普查, 数据挖掘, 决策树, C4.5算法, Map/Reduce技术

Abstract: With the end of first nation water census, massive water census data have been generated. To use the cloud computing technology in the area of water census data mining can provide scientific, reasonable supports for the decision of water conservancy in a quick, efficient and economical way. This paper proposes water census data decision tree classified mining algorithm MRC4.5 based on Map/Reduce and water census data of groundwater wells is applied to data mining with the algorithm. The experimental results indicate that compared with the traditional algorithm C4.5, MRC4.5 algorithm has higher efficiency and good speedup when dealing with massive data sets execution.

Key words: water census, data mining, decision-making tree, C4.5 algorithm, Map/Reduce

中图分类号:

TP391

丁伟，万定生，樊龙. 并行数据挖掘方法在水利普查成果分析中的应用[J]. 计算机与现代化, 2015, 0(10): 107-111.

DING Wei, WAN Ding-sheng, FAN Long. Parallel Data Mining Methods in Analysis of Results of Water Census[J]. Computer and Modernization, 2015, 0(10): 107-111.

参考文献

[1] 庞进武,程益联,罗志东. 水利普查与信息化[J]. 水利信息化, 2012(1):19-22.

[2] 陈龙,万定生,顾昕辰. 基于Hive的水利普查数据仓库[J]. 计算机与现代化, 2014(5):127-130.

[3] 毛国君,段立娟,王实,等. 数据挖掘原理与算法[M]. 北京:清华大学出版社, 2005.

[4] 丁静,杨善林,罗贺,等. 云计算环境下的数据挖掘服务模式[J]. 计算机科学, 2012,39(S1):217-219.

[5] 何清,庄福振,曾立,等. PDMiner: 基于云计算的并行分布式数据挖掘工具平台[J]. 中国科学:信息科学, 2014,44(7):871-885.

[6] 谢金梅,王艳妮. 决策树算法综述[J]. 软件导刊, 2008,7(11):83-85.

[7] 李楠,段隆振,陈萌. 决策树C4.5算法在数据挖掘中的分析及其应用[J]. 计算机与现代化, 2008(12):160-163.

[8] 姚亚夫,邢留涛. 决策树C4.5连续属性分割阈值算法改进及其应用[J]. 中南大学学报(自然科学版), 2011,42(12):3772-3776.

[9] 颜巍. 基于云平台的数据挖掘算法的研究与实现[D]. 成都:电子科技大学, 2013.

[10] 徐鹏,林森. 基于C4.5决策树的流量分类方法[J]. 软件学报, 2009,20(10):2692-2704.

[11] Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters[J]. Communications of the ACM, 2008,51(1):107-113.

[12] Borthakur D. The Hadoop Distributed File System: Architecture and Design[DB/OL]. http://web.mit.edu/~mriap/hadoop/hadoop-0.13.1/docs/hdfs_design.pdf, 2007-11-21.

[13] Lam C. Hadoop实战[M]. 韩翼中,译. 北京:人民邮电出版社, 2011.

[14] Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters[C]// Proceedings of the 6th Symposium on Operating Systems Design and Implementation. 2004:137-149.

[15] 周丽娟,王慧,王文伯,等. 面向海量数据的并行KMeans算法[J]. 华中科技大学学报(自然科学版), 2012,40(S1):150-152.

[16] 潘吴斌. 基于云计算的并行K-means气象数据挖掘研究与应用[D]. 南京:南京信息工程大学, 2013.

[17] 韩光辉. 基于欧氏距离的实例选择算法研究[D]. 保定:河北大学, 2011.

并行数据挖掘方法在水利普查成果分析中的应用

Parallel Data Mining Methods in Analysis of Results of Water Census

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

[1]	袁红伟1, 常利军1, 郝家欢2, 樊娜2, 王超2, 罗闯2, 张泽辉2. 基于标签传播的轨迹兴趣点挖掘及隐私保护[J]. 计算机与现代化, 2024, 0(05): 46-54.
[2]	孟雅蕾1, 师红宇1, 王予2. 一种无阻流量预测方法[J]. 计算机与现代化, 2024, 0(04): 33-37.
[3]	谢仕斌, 刘梦赤, 唐诗琪, 周瑞平, . 基于多特征提取的时间卷积知识追踪模型[J]. 计算机与现代化, 2023, 0(07): 25-29.
[4]	刘佩. 基于数据挖掘的医保控费系统[J]. 计算机与现代化, 2023, 0(06): 89-94.
[5]	潘裕庆, 张苏宁, 冯仁君, 景栋盛. 结合粒子群优化和LightGBM的入侵检测方法[J]. 计算机与现代化, 2023, 0(04): 123-126.
[6]	王劭华, 欧阳会丹, 孙丹, 王康, 吴鸿萍, 钟询, 褚兴平, 杨松涛. 基于Apriori算法的大学生体测项目关联规则挖掘[J]. 计算机与现代化, 2023, 0(03): 66-70.
[7]	宋晓丽, 张勇波, 张培颖. 基于半监督学习的学生消费数据异常检测[J]. 计算机与现代化, 2022, 0(12): 13-17.
[8]	段桂芹, 邹臣嵩. 基于近邻传播聚类的职业能力评价模型[J]. 计算机与现代化, 2022, 0(05): 21-27.
[9]	肖宏宇, 曾文驱, 王淑营. 基于模型特征匹配的BIM模型混合推荐算法[J]. 计算机与现代化, 2022, 0(01): 28-32.
[10]	魏健, 赵红涛, 刘敦楠, 加鹤萍 . 基于集成模型的超短时负荷预测方法[J]. 计算机与现代化, 2021, 0(03): 12-17.
[11]	陈明帅, 吴克河. 基于shell命令的内部攻击检测[J]. 计算机与现代化, 2021, 0(01): 56-60.
[12]	杨琳, 白钊, 寇勇刚. 基于RFM模型的随机森林算法对民航客户的流失分析[J]. 计算机与现代化, 2021, 0(01): 100-104.
[13]	郭欣, 陈瑛, 章鸣嬛, 张璇, 潘曙明, 汤璐佳. 利用机器学习方法对灾难生命支持课程NDLS培训效果进行分析预测#br#[J]. 计算机与现代化, 2020, 0(12): 61-66.
[14]	李科心, 李静, 邵佳炜, 肖屹. 多层次序列集成的高维数值型异常检测[J]. 计算机与现代化, 2020, 0(06): 73-.
[15]	蒋毅,欧郁强,梁广,高杨,严永高,林捷,赵晓宁. 基于数据挖掘的现场作业风险态势评估方法[J]. 计算机与现代化, 2020, 0(04): 78-.