计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

基于双层语料过滤器的短语抽取方法

  

  1. 1.中国移动通信集团广东有限公司,广东广州510006; 2.华南理工大学软件学院,广东广州510006
  • 收稿日期:2015-09-06 出版日期:2015-12-23 发布日期:2015-12-30
  • 作者简介:林波(1972-),男,广东湛江人,中国移动通信集团广东有限公司工程师,硕士,研究方向:通信行业数据挖掘; 林伟佳(1989-),男,广东茂名人,华南理工大学软件学院硕士研究生,研究方向:数据挖掘; 郭靖羽(1986-),男,广东肇庆人,硕士,研究方向:数据挖掘; 丁东辉(1993-),男,江西赣州人,硕士研究生,研究方向:数据挖掘; 黄翰(1980-),男,广东汕头人,教授,博士,研究方向:进化计算方法的理论基础,进化计算方法的优化计算及其应用。

Text Topic Extraction Based on Doublelinguisticfilter

  1. 1. China Mobile Group Guangdong Co. Ltd., Guangzhou 510006, China;

    2. School of Software Engineering, South China University of Technology, Guangzhou 510006, China
  • Received:2015-09-06 Online:2015-12-23 Published:2015-12-30

摘要: 文本主题提取技术能够有效地精炼文本消息,传统的中文文本由最基本的词语组成,由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。短语本身包含较为丰富的细粒度语义信息,更能表达出文本片段的主题性。本文提出基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。实验证明,本文的方法具有一定的可靠性和应用性。

关键词: 短语抽取, 信息提取, 规则挖掘

Abstract: The technology of text topic extraction is widely applied to refine the text information. Since the Chinese text is made up of base Chinese words, which contains trivial semantic information, the methods of using the words to express the semantic information of short text is not promised in applications. In contrast, Chinese phrases contain rich finegrained semantic information and they are preferred to be the representatives of topic of text. Therefore, this paper proposed a method of doublelinguisticfilter (lexical category filter and phraseextending filter) to weed out the redundant information and extract topic phrases from text. The phrase results are close to the refined semantic expression of text. The experimental result shows that the method we proposed can obtain reliable results, and the method would indicate other new methods on text mining.

Key words: phrase extraction, information extraction, rule mining

中图分类号: