数据结构形成方法、电子词典和多数组结构技术

技术编号：2870814 阅读：327 留言：0更新日期：2012-04-11 18:40

一种用于电子词典的数据结构形成方法，其特征在于，包括如下步骤：　　　　在所述电子词典的存储器中形成一个由ｎ＋１个数组组成的多数组结构（ｎ表示词典中最长的词所包括的字符个数），其中第一至第ｎ数组用于分别存放词典中的所有词的第一至第ｎ字符及其索引信息，第ｎ＋１数组用来存放所有词的词条信息；　　　　将第二至第ｎ数组分别划分成多个区，每个区包括一个或多个结构，所述结构由字符部分和带有对应于下一数组中的位置的起始索引值的索引部分组成；　　　　将该词典中的所有词的字符和词条信息存放到所述多数组结构中。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用于电子词典的数据结构形成方法、具有存储了由该方法形成的数据结构的存储器的电子词典以及用于该电子词典的多数组结构。
技术介绍
近年来电子词典被广泛地使用。该电子词典是具有能存放大量词信息和索引值以查找中文词信息的存储器的设备。然而，由于容量和重量的原因，电子词典的存储器空间是有限的。因此，更有效地利用存储器就非常重要。对于用于中文词的电子词典，使用何种汉语分词词典机制对于其空间效率和查找时间效率很重要。一篇名为“汉语自动分词词典机制的实验研究”的论文发表在《中文信息学报》第14卷第1期。在该论文中，介绍了三种典型的汉语分词词典机制，如，整词二分，TRIE索引树和逐字二分。作者还比较了三种典型的词典机制，并得出结论，认为逐字二分模式是最大程度地满足实际汉语分词速度要求的最合适的词典机制。不过，现有的汉语分词词典机制的存储空间效率和查找时间效率不令人满意。
技术实现思路
因此，本专利技术的目的是通过提供一种用于电子词典的数据结构形成方法、具有存储了由此形成的数据结构的存储器的电子词典以及用于该电子词典的多数组结构来解决现有技术中的上述问题，其能改善存储空间效率和查找时间效率。为实现上述目的，提供一种用于电子词典的数据结构形成方法。该数据结构形成方法包括如下步骤在所述电子词典的存储器中形成一个由n+1个数组组成的多数组结构(n表示词典中最长的词所包括的字符个数)，其中第一至第n数组用于分别存放词典中的所有词的第一至第n字符及其索引信息，第n+1数组用来存放所有词的词条信息。将第二至第n数组分别划分成多个区，每个区包括一个或多个结构，所述结构由字符部...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：杨大为，金浩，刘贺飞，秦晓亮，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人