基于相异度矩阵的碎片化回复文本聚类方法

doi:10.3969/j.issn.1006-2475.2024.09.010

摘要/Abstract

摘要： 针对问答社区碎片化回复文本中有效抽取所需文本信息的问题，本文提出一种基于相异度矩阵的碎片化回复文本聚类方法。首先，根据文本之间相异度设计聚类中心，以聚类方式将社区中碎片化回复文本分类；然后，使用基于RNN+CNN的问题文本特征提取方法提取用户问题的文本特征；最后，结合提取的问题文本特征，使用基于TF-IDF算法的抽取式文本自动生成算法，实现回复文本信息的快速自动提取。实验结果表明本文方法可以自动抽取所需文本信息，抽取结果精度高且稳定，可应用于问答社区碎片化回复文本的抽取。

关键词: 问答社区, 碎片化回复文本, 自动抽取, 聚类, 相异度

Abstract: In response to the problem of effectively extracting the required text information from fragmented reply texts in Q&A communities， this paper proposes a clustering method for fragmented reply texts based on dissimilarity matrix. Firstly， the clustering center is designed based on dissimilarity between texts and the fragmented reply texts in the community are classified by the clustering way. Then， the text features of user questions are extracted based on RNN+CNN. Finally， the automatic extraction of fragmented response text is achieved based on TF-IDF algorithm using the extracted question text features. The experimental results show that the proposed method can automatically extract the required text information with high accuracy and stability， and can be applied to the extraction of fragmented reply texts in question answering communities.

Key words: question-answer community, fragmented reply text, automatic extraction, clustering, dissimilarity

中图分类号:

TP391

刘文亮1, 吴飞1, 何德明1, 赵维伟2, 潘建宏3. 基于相异度矩阵的碎片化回复文本聚类方法[J]. 计算机与现代化, 2024, 0(09): 56-60.

LIU Wenliang1, WU Fei1, HE Deming1, ZHAO Weiwei2, PAN Jianhong3. Text Clustering Method for Fragmented Reply Based on Dissimilarity Matrix[J]. Computer and Modernization, 2024, 0(09): 56-60.

参考文献

［1］唐玉青. 从碎片化到整体性：基层政务服务数据的治理［J］. 行政论坛， 2022，29（1）：87-93.
［2］涂飞明，刘茂福，夏旭，等. 基于BERT的阅读理解式标书文本信息抽取方法［J］. 武汉大学学报（理学版）， 2022，68（3）：311-316.
［3］黄培馨，赵翔，方阳，等. 融合对抗训练的端到端知识三元组联合抽取［J］. 计算机研究与发展， 2019，56（12）：2536-2548.
［4］ EDRIS T A， SUNGKUR R K. Knowledge discovery from free text： Extraction of violent events in the African context［J］. New Review of Information Networking， 2019，24（2）：153-177.
［5］ FAUSTINA JOAN S P， VALLI S. A survey on text information extraction from born-digital and scene text images［J］. Proceedings of the National Academy of Sciences， India Section A： Physical Sciences， 2019，89（1）：77-101.
［6］郭炜杰，包晓安. 知识数据库中非结构化文本关键信息抽取模型［J］. 计算机仿真， 2021，38（9）：357-360.
［7］潘列，曾诚，张海丰，等. 结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法［J］. 计算机应用， 2022，42（4）：1108-1115.
［8］方自远. 基于非迭代训练层次循环神经网络的快速文本分类算法［J］. 计算机应用与软件， 2021，38（7）：310-316.
［9］安欣，徐硕，叶书路，等. 面向全文本的微观实体抽取及扩散研究［J］. 图书馆论坛， 2021，41（3）：42-49.
［10］张顺香，张镇江，朱广丽，等. 基于Bi-LSTM与双路CNN的金融领域文本因果关系识别［J］. 数据分析与知识发现， 2022，6（7）：118-127.
［11］代翔，孙海春，朱容辰，等. 联合注意力机制与MatchPyramid的文本相似度分析算法［J］. 计算机工程与应用， 2022，58（19）：158-165.
［12］邵恒，冯兴乐，包芬. 基于深度学习的文本相似度计算［J］. 郑州大学学报（理学版）， 2020，52（1）：66-71.
［13］吴呈，王朝坤，王沐贤. 基于文本化简的实体属性抽取方法［J］. 计算机工程与应用， 2020，56（21）：115-122.
［14］黄欣，雷刚，曹远龙，等. 基于深度学习的交互式问答研究综述［J］. 计算机科学， 2021，48（12）：286-296.
［15］洪壮壮，黄兆华，万仲保，等. 基于GMM的文本规则挖掘的粗糙集方法研究［J］. 中文信息学报， 2020，34（2）：56-62.
［16］陈玮，卢佳伟. 基于特征矩阵优化与数据降维的文本聚类算法［J］. 数据采集与处理， 2021，36（3）：587-594.
［17］景丽，何婷婷. 基于改进TF-IDF和ABLCNN的中文文本分类模型［J］. 计算机科学， 2021，48（增刊2）：170-175.
［18］张芳容，杨青. 知识库问答系统中实体关系抽取方法研究［J］. 计算机工程与应用， 2020，56（11）：219-224.
［19］王宪发，郭岩，刘悦，等. 基于视觉特征的网页信息抽取方法研究［J］. 中文信息学报， 2019，33（5）：103-112.
［20］董星彤，陈士宏，陈淑鑫. 自然语言处理文本查重优化算法设计［J］. 科学技术与工程， 2022，22（3）：1091-1097.
［21］谭金源，刁宇峰，杨亮，等. 基于BERT-SUMOPN模型的抽取-生成式文本自动摘要［J］. 山东大学学报（理学版）， 2021，56（7）：82-90.
［22］陈可嘉，黄思翌. 中文短文本自动关键词提取的改进RAKE算法［J］. 小型微型计算机系统， 2021，42（6）：1171-1175.
［23］申强强，熊泽宇，熊岳山. 一种新的基于段向量的文本自动摘要方法［J］. 计算机工程与科学， 2019，41（6）：1064-1070.
［24］林振荣，黄虹霞，舒伟红，等. 基于TF-IDF与用户聚类的推荐算法［J］. 计算机仿真， 2022，39（6）：341-345.
［25］何隽飞，赵慧，何学明. 基于改进TF-IDF可疑人员文本表示方法［J］. 计算机工程与设计， 2021，42（2）：396-401.
［26］姜艺，黄永，夏义堃，等. 学术文本词汇功能识别——在关键词自动抽取中的应用［J］. 情报学报， 2021，40（2）：152-162.
［27］王红斌，金子铃，毛存礼. 结合层级注意力的抽取式新闻文本自动摘要［J］. 计算机科学与探索， 2022，16（4）：877-887.
［28］王琛，董永权. 基于二进制灰狼优化的特征选择及文本聚类［J］. 计算机工程与设计， 2021，42（9）：2526-2535.

[1]	吕美静1, 年梅1, 张俊1, 2, 付鲁森1. 基于自编码器的网络流量异常检测[J]. 计算机与现代化, 2024, 0(12): 40-44.
[2]	袁红伟1, 常利军1, 郝家欢2, 樊娜2, 王超2, 罗闯2, 张泽辉2. 基于标签传播的轨迹兴趣点挖掘及隐私保护[J]. 计算机与现代化, 2024, 0(05): 46-54.
[3]	敖博超, 范冰冰. 基于AP聚类算法的联邦学习聚合算法[J]. 计算机与现代化, 2024, 0(04): 5-11.
[4]	孟雅蕾1, 师红宇1, 王予2. 一种无阻流量预测方法[J]. 计算机与现代化, 2024, 0(04): 33-37.
[5]	曾钟静昕, 甘刚. 基于卷积自编码器的侧信道分析[J]. 计算机与现代化, 2024, 0(03): 110-114.
[6]	王秋忆, 周浩, 郑婷婷. 改进RetinaNet的电力设备目标检测方法[J]. 计算机与现代化, 2024, 0(01): 47-52.
[7]	王宏杰, 徐胜超. 基于希尔伯特相似度的云平台异常传输数据聚类方法[J]. 计算机与现代化, 2023, 0(09): 27-31.
[8]	韩雪. 基于约束聚类和粒子群算法的多路径规划[J]. 计算机与现代化, 2023, 0(08): 7-11.
[9]	孙子雨, 任燃, 魏曦哲. 基于DTW-TCN的股票分类及预测研究[J]. 计算机与现代化, 2023, 0(08): 31-37.
[10]	王艺成, 张国良, 张自杰, . 基于改进YOLOv5的小目标检测方法[J]. 计算机与现代化, 2023, 0(05): 100-105.
[11]	马瑜涓, 韩建宁, 史韶杰, 曹尚斌, 杨志秀. 基于HMRF的改进Kmeans脑肿瘤分割算法[J]. 计算机与现代化, 2023, 0(03): 1-5.
[12]	洪涛, 朱鹏宇, 郭波, 王敬宇. 基于半监督聚类的通信缺陷研判知识库构建及迭代技术[J]. 计算机与现代化, 2023, 0(02): 28-33.
[13]	刘兴建, 杨晓夫, 胡磊. 基于非负矩阵分解的半监督模型用于多层网络聚类[J]. 计算机与现代化, 2023, 0(02): 83-88.
[14]	文紫鑫, 李少英, 王斌成, 刘博, . 基于近邻关系聚合的人脸聚类方法[J]. 计算机与现代化, 2022, 0(12): 81-87.
[15]	关云鹏, 刘玉龙. 基于从共现矩阵提取关联的类别型数据聚类[J]. 计算机与现代化, 2022, 0(11): 1-8.