计算机与现代化

• 算法分析与设计 • 上一篇    下一篇

4种分类算法参数选择及分类特点研究

  

  1. (山东科技大学电子通信与物理学院,山东青岛266590)
  • 收稿日期:2017-07-13 出版日期:2018-03-08 发布日期:2018-03-09
  • 作者简介:王正杰(1972-),男,辽宁辽阳人,山东科技大学电子通信与物理学院讲师,博士,研究方向:信号与信息处理,机器学习; 杨伟丽(1989-),女,山东菏泽人,硕士研究生,研究方向:信号与信息处理,机器学习; 王喆(1990-),男,山东烟台人,硕士研究生,研究方向:信号与信息处理,机器学习; 侯玉珊(1995-),女,山东济南人,硕士研究生,研究方向:信号与信息处理,机器学习; 郭银景(1966-),男,山东嘉祥人,教授,博士,研究方向:无线通信,生物医学信号处理。
  • 基金资助:
    国家自然科学基金资助项目(61471224); 青岛市博士后应用研究项目(2015180)

Research on Parameters Setting and Classification Characters of Four Classification Algorithms

  1. (College of Electronic, Communication and Physics, Shandong University of Science and Technology, Qingdao 266590, China)
  • Received:2017-07-13 Online:2018-03-08 Published:2018-03-09

摘要: 对分类算法的描述通常缺少定量的分析与研究,本文以K-近邻、支持向量机和决策树为研究对象,定量分析算法参数、数据噪音、节点数量对分类精度和运行时间的影响。首先研究这几种算法及参数作用,选定最优参数,分析不同噪音对分类精度的影响,然后分析节点数量对分类精度影响及运行时间变化。通过Scikit-learn模块对讨论内容进行仿真实验,实验结果清楚地展示了分类算法在不同参数条件下分类特点,为实际数据分类研究提供指导。

关键词: 参数选取, 分类特点, K近邻, 支持向量机, 决策树

Abstract: The quantitative research and analysis about the classification algorithm are not often sufficient to choose the suitable algorithm. In this paper, the K-Nearest Neighbor algorithm, SVM and decision tree are quantitatively analyzed about classification accuracy and running time by using different the parameters of the algorithm, the data noise and the number of nodes. Firstly, parameters effects of these algorithms are studied. Then, the optimal parameters are selected to analyze the influence of different noise on the classification accuracy. At last, the influence of the number of nodes on the classification accuracy and the running time is analyzed. The Scikit-learn module is used to simulate the content of the discussion. The experimental results clearly show the classification characteristics of these classification algorithms under different parameters, which provide guidance for the classification of the actual data.

Key words: parameter selection, classification feature, KNN, SVM, decision tree

中图分类号: