计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

一种适宜于子空间聚类的离群点检测算法

  

  1. 1.南京南瑞集团公司,江苏南京210003;
    2.南京信息工程大学电子与信息工程学院,江苏南京210044;
    3.北京国电通网络技术有限公司,北京100070;
    4.国网浙江省电力公司信息通信分公司,浙江杭州310007
  • 收稿日期:2015-10-28 出版日期:2015-12-23 发布日期:2015-12-30
  • 作者简介:杨维永(1978-),男,江苏宿迁人,南京南瑞集团公司高级工程师,硕士,研究方向:信息安全及大数据分析; 何军(1978-),男,南京信息工程大学电子与信息工程学院副教授,研究方向: 机器学习与大数据分析; 郑生军(1977-),男,北京国电通网络技术有限公司高级工程师,硕士,研究方向:电力信息系统安全; 张旭东(1969-),男,国网浙江省电力公司信息通信分公司高级工程 师,硕士,研究方向:网络、通信及公司运营监测。
  • 基金资助:
    国家自然科学基金资助项目(61203273); 国家电网公司科技项目(524681140009)

An Outlier Detection Algorithm for Subspace Clustering

  1. 1. NARI Group Corporation, Nanjing 210003, China;

    2. School of Electronic and Information Engineering, Nanjing University of Information Science and Technology, 
    Nanjing 210044, China; 3. Guodiantong Corporation, Beijing 100070, China;
    4. State Grid Information & Telecommunication Branch of Zhejiang Province Electric Co., Hangzhou 310007, China
  • Received:2015-10-28 Online:2015-12-23 Published:2015-12-30

摘要:

大数据处理面临数据信息缺失、信息杂乱、数据污染等诸多挑战,而离群点的检测与剔除是大数据分析中一个重要的预处理过程。本文针对数据分析中的子空间聚类问题,在数据受到离群点污染
的情况下,基于离群点稀疏性的先验知识,对经典的ksubspace子空间聚类算法融入1范数正则化,并采用随机梯度下降优化方法进行子空间聚类,以克服大数据处理计算量大和内存需求高的困难
。通过数值仿真,本文方法能够保证在数据受到严重离群点污染的条件下,可以精确检测并剔除离群异常数据,从而获得准确的子空间聚类结果。

关键词: 大数据处理, 离群点检测, 子空间聚类

Abstract:

There are several challenging difficulties in modern big data analytics, such as missing data, unstructured data, and outlier corruption, etc. The foremost important
preprocess is outlier detection and removal. In this paper, for tackling the popular subspace clustering problem in data analytics, we consider the more challenging scenario in
which the data set is corrupted by sparse outliers. Based on the sparsity assumption, the classic ksubspace algorithm is adapted to incorporate the 1 norm regularization
to alleviate outlier sideeffect. In order to overcome the huge requirements of computation and memory in big data, the modified ksubspace clustering algorithm exploits
stochastic gradient descent (SGD) for fast computation and memory efficiency. Simulation experiments show that even the data set is heavily corrupted by outliers the proposed
approach can guarantee to accurately detect and remove outliers, and furthermore achieves the accurate subspace clustering results.

Key words: big data analytics, outlier detection, subspace clustering

中图分类号: