全字索引词典制造技术

技术编号:3828642 阅读:484 留言:0更新日期:2012-04-11 18:40
一种词典索引构造方法,应用于中西文词条的文字处理,特别是中文词条的分词和查询。它对词典中每个词条的全部字符建立索引关系而不仅仅建立首字索引关系,通过字符的内码映射到对应的字符入口,然后将每个词条的编号及组成的字所在位置记录在对应字符中的词条链中。这样在进行词条查询时,可以通过对词条组成的全部字符的词条链中的词条编号和位置进行比较获得所需的词条。该方法结构简单,很容易实现词典的构造、添加、删除等维护工作;能够满足中文分词对速度的要求;也可以进行中西文混合处理。此外,还可以实现其它词典索引方法比较难以实现的非首字查询和模糊查询。

【技术实现步骤摘要】

本专利技术涉及一种词典索引构造方法,尤其是能应用在计算机文字处理过程中,可 以快速地搜索到所需的词条(词组),还可以进行非首字查询和模糊查询,与传统词典所使 用的首字索引方法不同。
技术介绍
词典特别是计算机电子词典是人们在日常生活和科学研究工作中所不可缺少的。 编撰词典的目的是为人们查询词条提供方便,因此如何对词典中的词条进行索引起着相当 重要的作用,直接影响词条查询的效率。自从中文词典诞生以来,采用的词条检索方式就是一种以首字为索引记录词条的 方式。例如,在《辞海》中查询一个词条的方式如下首先根据词条中的第一个字的部首检 索出部首所在索引页,然后在部首索引页所列的字中检索出该字所在的正文页,翻到相应 的正文页,依次检索以该字开头的词条直到找到所需的词条。可以看出,在词典中检索词条 的过程可以分为首字的检索和依次查找词条两步。其中,随着汉语拼音的推广和水平的提 高,一些人会偏爱使用汉语拼音进行首字的检索。中文词典的这种索引方式基本上不存在冗余,即任何词条在词典中仅出现一次。 为了查找方便,也可以对某些字或词条加上“参见XX字或词条”的方式,但是一般而言,这 种索引方式不方便进行非首字和模糊查找。显然,西文也采用同样的方式进行词及词组的检索,例如,英文词典就是按照首字 母进行一级索引的。西文词典不同于中文的地方主要在于西文最小的单位就是词条而不是 字(字母),而且在应用词条进行写作时每个词条之间用空格或标点符号分隔。随着计算机技术的应用,电子词典得到了广泛的应用,由于其使用方便、效率高而 逐渐取代了纸制词典。电子词典不仅为一般用户查找词条提供了方便,更重要的是,电子词 典也是自然语言理解、文档搜索等方面的基础,尤其在进行中文分词时起着非常重要的作 用。通过检索近年来百余篇相关论文和在国家知识产权局专利检索网页上使用关键 词“词典”进行检索发现目前中文词典索引方式在本质上仍然采用传统的方法,是传统索 引方法的计算机化,未发现对词条全部字都进行索引的词典索引构造方法。归纳而言,基本 的中文词典索引实现方式有如下几种(1)有序线性词典结构词典正文以词条为单位进行有序排列,初始化时读取到内存。在有序线性词典结 构中,词典正文中通过整词二分进行定位。这种词典结构算法简单、易于实现、有效空间使 用率高,缺点是查找效率低,而且更新代价高。在添加新词时需要移动词典中的词条来保证 有序性,当词典比较大时需要花费相当长的时间。(2)基于整词二分的词典结构将词典分为词典正文、词索引表、首字散列表三级。词典正文是以词条为单位的有序表,词索引表是指向词典正文中每个词条的指针表。通过首字散列表的哈希定位和词索 引表确定指定词条在词典正文中的可能位置范围,进而在词典正文中通过整词二分进行定 位。 (3)基于TRIE索引树的分词词典机制TRIE索引树是一种以树的多重链表形式表示的键树。基于TRIE索引树的分词词 典机制由首字散列表和TRIE索引树结点两部分组成。TRIE索引树将词索引表用树的方式 组织起来,这种结构在对中文语句进行分词扫描时具有较大优点,可以不需预知待查询词 的长度,只需沿着树链逐字匹配即可;它的缺点是构造和维护比较复杂,而且都是单词树枝 (一条树枝仅代表一个词),浪费了一定的空间。为了提高查询的效率,减少词典更新维护难度,许多学者对上述三种基本词典结 构进行了一些改进,例如(1)基于双字哈希的分词词典机制该机制吸纳了 “整词二分”及“TRIE索引树”二者的优点,仅对词语的前两个字顺 次建立哈希索引,构成深度仅为2的TRIE子树,词条的剩余字串按序组成类似“整词二分” 的词典正文。(2)基于分层逐字二分算法的中文词典结构以较小的容量代价来提高词表的查找速度是这种词典结构的设计目标。它采用树 状结构表示中文词典。词典的第一层以中文词条的首字作为索引,采用哈希表存储,以提高 首字的查找速度。第二层则以首字作为根节点,将所有首字相同的词组成一棵树。因为在 汉语中二字词较多,所以在森林的第二层,采用线性顺序表来存储词条的第二个字,去除相 同的字并形成一个有序的线性表,然后将此汉字为首的单词的剩余部分形成树。(3)基于自动机的分词词典机制在词典中对于特定的首字,前两字相同的词条很少,前三字相同的词条更少。当采 用自动机的方式组织词典后,除子表的第一层外,各个节点的兄弟数目都很小,对它们的查 找可采用顺序查找方法。(4)树形结构词典把每一个汉字作为一个单元存储,词就表示成汉字之间的关系。#表示树形字典的 根。*是终止符,表示从根部到该字构成一个词典词。该方法与TRIE树结构类似,由于使用 了终止符,可以节省一些存储空间。(5)多次Hash词典组织方式该词典由首字Hash表、词次字Hash表、词次字结构、词余字索引表、词余字词典正 文等部分组成。该方法也是基于中文中两字词比较多的情况设计的。经过多年的努力,中文词典的查询效率得到了极大的提高,但是词典的维护却变 得更加复杂;同时,由于上述词典设计的主要目的是进行中文分词,所以忽略了中文词典的 其他功能的使用,影响了这些词典的应用。主要参考文献周程远,朱敏,杨云。基于词典的中文分词算法研究。计算机与数字工程, 2009,37(3) 68-71李庆虎,陈玉健,孙家广。一种中文分词词典新机制一双字哈希机制。中文信息学报,2003,17 (4) 13-18罗洋。汉语自动分词方法的综述。科技信息,2009. 7 :596,634吴建胜,战学刚,迟呈英。一种基于自动机的分词方法。计算机工程与应 用,2005. 8.赵远东,陈康,陈建华。基于全文检索的Segmenter分词算法改进。电脑 知识与技术,2009,5(1) 202-205张科。多次Hash快速分词算法。计算机工程与设计,2007,28 (7) 1716-1718
技术实现思路
为了克服现有的面向计算机的中文电子词典构建与维护的不足,增强电子词典的 功能,本专利技术提出一种新的对词条全部字都建立索引的词典构建方法。该方法的特点是首 先为每个字(包括汉字、英文字母和其他字符)建立一个哈希表;然后为每个词条建立词典 正文并予以编号;将每个词条分解成字;最后将词条分解的结构信息(包括词条的编号和 每个字在词条中的位置信息)记入每个分解字的词条信息结构中。当用户使用该词典进行 词条查询时,只需要将该词条包含在每个字中的词条信息取出,然后按照词条编号和位置 进行匹配,匹配成功的词条就是用户所需要的词条。当用户增加新词条时,只要将该词条分 解并将其词条编号和分解字的位置信息写入对应的字的词条信息结构中即可。而当用户删 除一个词条时,只要检索该词条,然后将该词条的信息从对应的字的词条信息结构中删除 即可。本专利技术所采用的技术方案如图1所示步骤1 对所有的词条进行编号。例如可以按照词条出现的先后次序进行编号,不 必要求一定要按照传统字典的首字顺序对词条进行排列与编号,即只要保证每个词条的编 号是唯一的即可;步骤2 分配一个128X128的字符对象数组,将所有常用字(所有用一个和两个 字节表示的符合计算机标准的字符,包括国标二级汉字、ASCII码和其他字符等,这里统称 为字或字符)都根据计算机内码与该数组建立映射关系。映射方法是内码小于128的 本文档来自技高网
...

【技术保护点】
一种词典索引构造方法,应用于计算机文字处理,其特征是:建立一个字符类对象数组,通过将所有常用字的计算机内码映射为一个字符类对象数组的下标来表示该常用字,并在每个字符类对象数组元素中记录该字符所涉及全部词条的词条组成关系信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:尹文生
申请(专利权)人:华中科技大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1