收稿日期:
2018-09-06
出版日期:
2019-04-08
发布日期:
2019-04-10
作者简介:
李富星(1993-),男,湖北十堰人,硕士研究生,研究方向:数据挖掘,E-mail: xingf_lee93@126.com; 蒙祖强(1974-),广西罗城人,男,教授,博士,研究方向:大数据智能,跨媒体挖掘,知识发现。
基金资助:
Received:
2018-09-06
Online:
2019-04-08
Published:
2019-04-10
摘要: 传统类别区分词特征选择算法以类间分散度和类内重要度作为度量指标,忽略了2个指标对特征评分函数的贡献权重往往不同这一事实,从而在一定程度上影响了特征选择效果。在类别区分词特征选择算法基础上,引入平衡因子,通过调节平衡因子来调整2个指标对特征评价函数的贡献权重,完成更加高效的特征选择,进而达到更好的文本分类效果。使用朴素贝叶斯算法进行文本分类,相比主流特征选择算法,改进算法在分类准确率、查准率、查全率和F1指标上都取得了可观的性能提升。
中图分类号:
李富星,蒙祖强 . 一种改进的类别区分词特征选择算法[J]. 计算机与现代化, doi: 10.3969/j.issn.1006-2475.2019.03.014.
LI Fu-xing,MENG Zu-qiang . An Improved Feature Selection Algorithm Based on Category Distinguished Words[J]. Computer and Modernization, doi: 10.3969/j.issn.1006-2475.2019.03.014.
[1] 周茜,赵明生,扈旻. 中文文本分类中的特征选择研究[J]. 中文信息学报, 2004,18(3):17-23. [2] WU G, XU J. Optimized approach of feature selection based on information gain[J]. Computer Engineering & Applications, 2011,47(12):157-161. [3] 刘海峰,刘守生,宋阿羚. 基于词频分布信息的优化IG特征选择方法[J]. 计算机工程与应用, 2017,53(4):113-117. [4] 郭亚维, 刘晓霞. 文本分类中信息增益特征选择方法的研究[J]. 计算机工程与应用, 2012, 48(27):119-122. [5] LI Y H. Text feature selection algorithm based on CHI-square rank correlation factorization[J]. Journal of Interdisciplinary Mathematics, 2017,20(1):153-160. [6] CAI Z, WANG J, LIU J. Novel feature selection algorithm for Chinese text categorization based on CHI[C]// IEEE International Conference on Signal Processing. IEEE, 2017:1035-1039. [7] 吴金源, 冀俊忠, 赵学武,等. 基于特征选择技术的情感词权重计算[J]. 北京工业大学学报, 2016, 42(1):142-151. [8] WANG H. Study on the application of feature selection for big text data using expected cross entropy[J]. Journal of Information & Computational Science, 2015,12(18):6835-6843. [9] 单丽莉, 刘秉权, 孙承杰. 文本分类中特征选择方法的比较与改进[J]. 哈尔滨工业大学学报, 2011(S1):319-324. [10]周奇年,张振浩,徐登彩. 用于中文文本分类的基于类别区分词的特征选择方法[J]. 计算机应用与软件, 2013,30(3):193-195. [11]李铂鑫. 文本分类中基于综合度量特征选择算法的研究[D]. 武汉:华中科技大学, 2015. [12]阿不都萨拉木·达吾提, 于斯音·于苏普, 艾斯卡尔·艾木都拉. 类别区分词与情感词典相结合的维吾尔文句子情感分类[J]. 清华大学学报(自然科学版), 2017(2):197-201. [13]YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[C]// The 14th International Conference on Machine Learning. Morgan Kaufmann Publishers Inc., 1997:412-420. [14]GAO Z, XU Y, MENG F, et al. Improved information gain-based feature selection for text categorization[C]// IEEE International Conference on Wireless Communications, Vehicular Technology, Information Theory and Aerospace & Electronic Systems. 2014:1-5. [15]范小丽,刘晓霞. 文本分类中互信息特征选择方法的研究[J]. 计算机工程与应用, 2010,46(34):123-125. [16]LIU Y, CHEN F, KONG W, et al. Identifying Web spam with the wisdom of the crowds[J]. ACM Transactions on the Web, 2012,6(1):1-30. [17]DEBOLE F , SEBASTIANI F . An analysis of the relative hardness of Reuters-21578 subsets[J]. Journal of the American Society for Information Science and Technology, 2014,56(6):584-596. [18]TONG S, KOLLER. Support vector machine active learning with application to text classification[J]. Machine Learning Research, 2002,2(1):999-1006. [19]TANG B, HE H, BAGGENSTOSS P M, et al. A Bayesian classification approach using class-specific features for text categorization[J]. IEEE Transactions on Knowledge & Data Engineering, 2016,28(6):1602-1606. [20]TANG B, KAY S, HE H. Toward Optimal Feature Selection in Naive Bayes for Text Categorization[M]. IEEE Educational Activities Department, 2016. [21]江小平, 李成华, 向文,等. 云计算环境下朴素贝叶斯文本分类算法的实现[J]. 计算机应用, 2011, 31(9):2551-2554. [22]周志华. 机器学习[M]. 北京:清华大学出版社, 2016:30-32. [23]MA L, LU Z, SHANG L, et al. Multimodal convolutional neural networks for matching image and sentence[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015:2623-2631. |
[1] | 付鸿林, 张太红, 杨雅婷, 艾孜麦提·艾瓦尼尔, 马 博. 基于生成对抗网络的维语场景文字修改网络[J]. 计算机与现代化, 2024, 0(01): 41-46. |
[2] | 王秋忆, 周 浩, 郑婷婷. 改进RetinaNet的电力设备目标检测方法[J]. 计算机与现代化, 2024, 0(01): 47-52. |
[3] | 林启钊, 彭志平, 郭 棉, 崔得龙. 基于双向多步预测的炉管温度场重构方法[J]. 计算机与现代化, 2024, 0(01): 53-58. |
[4] | 郑立瑞, 肖晓霞, 邹北骥, 刘 彬, 周 展. 基于BERT的电子病历命名实体识别[J]. 计算机与现代化, 2024, 0(01): 87-91. |
[5] | 李颖颖, 黄文培. 基于优化八叉树的场景视锥体裁剪算法[J]. 计算机与现代化, 2024, 0(01): 103-108. |
[6] | 夏千涵, 何胜煌, 吴元清, 赵乐乐. 基于可学习记忆特征金字塔网络的小样本目标检测[J]. 计算机与现代化, 2023, 0(12): 7-13. |
[7] | 周成诚, 曾庆军, 杨 康, 胡家铭, 韩春伟. 基于高效通道注意力模块的运动想象脑电识别[J]. 计算机与现代化, 2023, 0(12): 19-23. |
[8] | 曾伟平, 陈俊洪, Muhammad ASIM, 刘文印, 杨振国. 基于多阶段分形组合的点云补全算法[J]. 计算机与现代化, 2023, 0(12): 24-29. |
[9] | 白晓波, 江梦茜, 王铁山, 邵景峰, 李 勃, . 聚类质心与指数递减方法改进的哈里斯鹰算法[J]. 计算机与现代化, 2023, 0(12): 30-35. |
[10] | 邱凯星, 冯 广. 基于双重特征注意力的多标签图像分类模型[J]. 计算机与现代化, 2023, 0(12): 41-47. |
[11] | 杜 康, 郭鲁钰, 徐啟蕾, 单宝明, 张方坤. 基于模型种群分析变量选择的红外光谱建模方法[J]. 计算机与现代化, 2023, 0(12): 48-52. |
[12] | 刘语珵, 贺 奇, 董延华, 王晓宇. 结合时间相关度与课程搭配度的课程推荐方法[J]. 计算机与现代化, 2023, 0(12): 53-58. |
[13] | 张浩洋, 尹梓名, 乐珺怡, 沈达聪, 束翌俊, 杨自逸, 孔祥勇, 龚 伟. 3D-SPRNet: 一种基于并行解码器和双注意力机制的胆囊癌分割模型[J]. 计算机与现代化, 2023, 0(12): 59-66. |
[14] | 张伯泉, 麦海鹏, 陈嘉敏, 逄锦聚. 基于高灰度值注意力机制的脑白质高信号分割[J]. 计算机与现代化, 2023, 0(12): 67-75. |
[15] | 张在成, 李 健. 改进的神经渲染方法在建筑施工场景中的应用[J]. 计算机与现代化, 2023, 0(12): 76-81. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||