摘要: 中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。
中图分类号:
孙殿哲;魏海平;陈岩. Nutch中庖丁解牛中文分词的实现与评测[J]. 计算机与现代化, 2010, 1(6): 187-0190.
SUN Dian-zhe;WEI Hai-ping;CHEN Yan. Realization and Evaluation of Paodingjieniu Chinese Segmentation in Nutch[J]. Computer and Modernization, 2010, 1(6): 187-0190.