摘要: KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。
中图分类号:
邵莉. 基于粗糙集与改进KNN算法的文本分类方法的研究[J]. 计算机与现代化, 2012, 198(2): 86-89.
SHAO Li. Study of Text Classification Method Based on Rough Set and Improved KNN Algorithm[J]. Computer and Modernization, 2012, 198(2): 86-89.