计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

改进Smote算法在不平衡数据集上的分类研究

  

  1. (1.江南大学物联网工程学院,江苏无锡214122;2.江南大学商学院,江苏无锡214122;
    3.江南大学食品安全风险治理研究院,江苏无锡214122)
  • 收稿日期:2017-09-13 出版日期:2018-04-03 发布日期:2018-04-03
  • 作者简介:易未(1993-),男(土家族),湖北宜昌人,江南大学物联网工程学院硕士研究生,研究方向:计算机应用与技术; 毛力(1967-),男,江苏南京人,副教授,研究方向:人工智能,数据挖掘; 孙俊(1971-),男,江苏无锡人,教授,研究方向:人工智能,机器学习,计算智能和高性能计算; 吴林海(1962-),男,江苏无锡人,江南大学商学院、江南大学食品安全风险治理研究院教授,研究方向:粮食与食品安全。
  • 基金资助:
    国家粮食公益性行业科研专项项目(201513004-6); “十二五”农村领域国家科技计划子课题(2015BAD17B02-8); 现代农业产业技术体系专项资金项目(CARS-49); 江苏省产学研合作项目(BY2015019-30)

Research on Classification of Improved Smote Algorithm on Imbalanced Datasets

  1. (1. School of Internet of Things, Jiangnan University, Wuxi 214122, China; 
    2. School of Business, Jiangnan University, Wuxi 214122, China; 
    3. Food Safety Risk Management Institute, Jiangnan University, Wuxi 214122, China)
  • Received:2017-09-13 Online:2018-04-03 Published:2018-04-03

摘要: 在不平衡数据集中,过抽样算法如Smote(Synthetic Minority Oversampling)算法、R-Smote算法与SD-ISmote算法可能会模糊多数类与少数类的边界以及使用噪声数据合成新样本。本文提出的ImprovedSmote算法使用少数数据集的簇心与其对应类别的少数集数据,在簇心与不大于样本属性数的对应类别少数集数据形成的图形内随机插值来生成新数据。ImprovedSmote算法结合C4.5决策树与神经网络算法在实验数据集上的结果比Smote, R-Smote与SD-ISmote算法更好,可以有效地提高分类器分类性能。

关键词: 不平衡数据集, Smote算法, R-Smote算法, SD-ISmote算法, ImprovedSmote算法, 簇心

Abstract: In imbalanced datasets, the oversampling algorithm, such as Smote (Synthetic Minority Oversampling) algorithm, R-Smote algorithm and SD-ISmote algorithm, may blur the boundary between the majority and the minority and use noisy data to synthesize new samples. The ImprovedSmote algorithm proposed in this paper uses cluster center of minority set and their corresponding minority set to generate new samples. The Smote, the R-Smote, the SD-ISmote and the ImprovedSmote algorithm combined C4.5 decision tree and neural network algorithm are used on the experimental datasets. The results show that the ImprovedSmote algorithm is better than other algorithms in classification and can effectively improve classifier performance.

Key words: imbalanced dataset, Smote, R-Smote, SD-ISmote, ImprovedSmote, cluster center

中图分类号: