计算机与现代化

• 应用与开发 • 上一篇    下一篇

VISDMiner:一个交互式数据挖掘过程可视化系统

  

  1. (1.贵州大学计算机科学与技术学院,贵州贵阳550025;2.贵州省先进计算与医疗信息服务
    工程实验室,贵州贵阳550025;3.中国科学院国家天文台,北京100012)
  • 收稿日期:2018-03-09 出版日期:2018-07-05 发布日期:2018-07-05
  • 作者简介:王永胜(1988-),男,河南南阳人,贵州大学计算机科学与技术学院、贵州省先进计算与医疗信息服务工程实验室硕士研究生,研究方向:数据挖掘;通信作者:李晖(1982-),男,教授,博士,研究方向:大数据管理与分析,数据挖掘;陈梅(1964-),女,教授,研究方向:大数据管理与分析;戴震宇(1985-),男,实验师,硕士,研究方向:大数据管理与分析;朱明(1966-),男,中国科学院国家天文台研究员,研究方向:巡天大数据处理,射电天文学。
  • 基金资助:
    国家自然科学基金资助项目(61562010,61462012,U1531246);贵州省教育厅自然科学基金资助项目(黔科合人才团队字[2015]53);贵州省科技计划项目(黔科合人LH字[2016]7427);贵州大学研究生创新基金(院级)资助项目(院创201704)

VISDMiner:AnInteractiveDataMiningProcessVisualizationSystem

  1. (1.CollegeofComputerScienceandTechnology,GuizhouUniversity,Guiyang550025,China;
    2.GuizhouEngineeringLabforACMIS,Guiyang550025,China;
    3.NationalAstronomicalObservatories,ChineseAcademyofSciences,Beijing100012,China)
  • Received:2018-03-09 Online:2018-07-05 Published:2018-07-05

摘要: 针对数据挖掘中挖掘过程不透明以及用户交互少的问题,本文设计并实现了VISDMiner系统。VISDMiner系统将可视化技术和数据挖掘技术结合在一起,提供对挖掘过程中各阶段产生的可视化子结果集的分析。用户可根据自己的领域知识和经验去调整数据挖掘算法模型的参数和可视化模型的参数,促进算法和挖掘分析过程的有效调优。为了处理高维数据集,VISDMiner系统采用一种基于最大信息系数的主成分分析改进算法MIC-PCA,该算法主要是针对传统PCA算法降维能力和分类准确率低的问题进行改进。实验结果表明,VISDMine不仅实现了数据挖掘过程的可视化,还提高了用户对数据挖掘〖JP2〗执行结果的可理解性,其采用的改进的MIC-PCA算法提高了PCA算法的降维能力和分类准确率。

关键词: 数据挖掘, 可视化技术, 交互性, 可视化数据挖掘, 特征选择, 主成分分析

Abstract: Inordertoaddresstheproblemthatthedataminingprocessoftentobenottransparentandlackofuserinteraction,wedesignandimplementtheVISDMinersystem.VISDMinercombinesthevisualizationtechnologyandthedataminingtechnologytoprovidethecapabilityofanalyzingandvisualizingpartialresultsofallstagesofminingprocess.Duringtheprocedures,userscantunetheparametersofdataminingalgorithmandvisualizationsaccordingtotheirdomainknowledgeandexperiencetoachievefurtherdataexploration.Inordertodealwithhigh-dimensionaldataset,VISDMinersystemusesanimprovedalgorithmMIC-PCAforprincipalcomponentanalysisbasedonthemaximuminformationcoefficient.ThealgorithmismainlyaimedatimprovingthedimensionalityreductionandclassificationaccuracyoftraditionalPCAalgorithms.TheexperimentalresultsshowthatVISDMinenotonlyrealizesthevisualizationofthedataminingprocess,butalsoimprovestheuser’sunderstandabilityofthedataminingresults,andtheMIC-PCAalgorithmalsoimprovesthedimensionalityreductionandclassificationaccuracyofPCAalgorithm.

Key words: datamining, visualizationtechnology, interactivity, visualdatamining, featureselection, PCA

中图分类号: