摘要:
分词词典是信息处理系统的一个基本组成部分,其查询效率将直接影响信息处理系统的性能。根据信息在计算机内都是以二进制编码存放的原理,本文把对字符串的处理转化成对二进制串的处理(支持任何语言的字符串),建立基于Trie索引树的分词词典机制。可以根据不同应用系统需求,自动调整二进制串的长度,建立不同的Trie树结构,便于在存储空间和查询效率之间寻找合适的平衡点。这种基于索引的查询速度与词库中词的多少无关,只与词本身的长度有关系;并且公共的前缀索引值随着词汇量的增大而节省大量内存空间。
韩莹;丰继林;袁静;王茂发;张艳霞;陈福明;陈新房;潘志安. 基于二进制串的Trie索引树分词词典机制的研究[J]. 计算机与现代化, 2013, 1(1): 5-7.
HAN Ying;FENG Jilin;YUAN Jing;WANG Maofa;ZHANG Yanxia;
CHEN Fuming;CHEN Xinfang;PAN Zhian. Research on Dictionary Mechanism Based on Binary of Trie Index Trees[J]. Computer and Modernization, 2013, 1(1): 5-7.