计算机与现代化

• 应用与开发 • 上一篇    下一篇

 合成少数类过采样过滤器方法在二手车推荐中的应用

  

  1. 1.南京航空航天大学计算机科学与技术学院,江苏南京210016;2.南京航空航天大学无人机研究院,江苏南京210016
  • 收稿日期:2016-01-08 出版日期:2016-07-21 发布日期:2016-07-22
  • 作者简介: 邱海波(1989-),男,江苏阜宁人,南京航空航天大学计算机科学与技术学院硕士研究生,研究方向:智能系统与数据挖掘; 钱忠民 (1971-),男,副教授,博士,研究方向:信息系统与信息安全; 钱默抒(1978-),男, 南京航空航天大学无人机研究院副研究员,博士,研究方向:飞行控制系统及其容错控制。
  • 基金资助:
     国家自然科学基金资助项目(61403195); 江苏省自然科学基金资助项目(SBK2014042586)

  Used-car Recommendation Based on Synthetic Minority Over-sampling Technique Filter

  1. 1. College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China; 
      2. Unmanned Aevial Vehicle Research Institute, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China
  • Received:2016-01-08 Online:2016-07-21 Published:2016-07-22

摘要:  由于二手车推荐的数据集具有非平衡特性,因此,二手车推荐可视为非平衡分类问题,可借助解决非平衡分类问题的方法来实现二手车推荐。本文对非平衡数据分类的数据集重构进行研究,通过分析合成少数类过采样方法(Synthetic Minority Over-sampling Technique, SMOTE)的特点与不足,提出合成少数类过采样过滤器方法(Synthetic Minority Over-sampling Technique Filter, SmoteFilter),对SMOTE方法合成样本进行过滤,减少合成样本中的噪声数据,提高训练样本“质量”。使用支持向量机对SMOTE合成的数据和SmoteFilter合成的数据进行实验对比,结果表明SmoteFilter方法相较传统的SMOTE过采样方法,提高了二手车推荐中少数类的预测精度,提升了对二手车推荐的整体预测性能。

关键词:  , 二手车推荐, 分类, 非平衡数据, 过采样, 支持向量机

Abstract:  Due to the fact the used-car data have unbalanced characteristics, recommendation of used-cars boils down to unbalanced data classification problem and it can be solved with the unbalanced classification methods. In this paper, with the focus on reconstruction of the trainning data set and by an analysis of characteristics and deficiency of the SMOTE over-sampling method, we propose the Synthetic Minority Over-sampling Technique Filter, or SmoteFilter for short. It works by filtering the data generated by SMOTE over-sampling and reduces the noise in generated data. Based on support vector machine using data generated by SMOTE and SmoteFilter, the experimental study shows that SmoteFilter method has better effect on predicting accuracy of minority class than the SMOTE method, improving the prediction performance of vehicle recommendation.

Key words:  used-car recommendation, classification, imbalanced dataset, over-sampling, support vector machine