以格阵作关键字的字典检索装置和方法制造方法及图纸

技术编号:2890583 阅读:194 留言:0更新日期:2012-04-11 18:40
以格阵作为关键字的用于检索TRIE(树检索)字典的字典检索装置和方法,在格阵中,每个识别结果的待选物字符作为数据结点处理,且字符格阵是用每个待选物字符同控制结点连结构成,根据控制结点连结信息,相应于每个分支的字符串通过从头到尾遍历字符格阵的数据结点而被检索。根据这种方法,在字符格阵中包含的所有检索关键字形成以后,同用字典匹配实现的处理相比,得到更高的检索效率。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种字典检索装置和方法,以检索字典,它基于格阵(1attice)结构数据,包括多个被识别的字符或音素待选物,以识别字符,语音等等。近几年来,为计算机研究了一些更有效的数据输入方法。为了把数据输入给计算机,一些识别技术,如字符识别,语音识别等是大家知道的。对于利用待识别字符串字典的核对(collating)方法有散列法,B-树法和TRIE法(树检索法Tree Retrieval method)。散列法是寻找对应于检索关键字内码的记录字之存贮地址的一种方法。B-树法是一种对存贮在B-树的每个结点的记录字进行检索的一种方法。B-树是一种搜索树,它在一个单结点上具有多个分支。TRIE法,它是通过把部分检索关键字同在树结点上存贮的索引,进行比较,对通过分类存贮在叶上的记录字进行检索的。为了识别处理,被识别结果的多个待选物可以以字符和音素存在,对于多个待选物的字典检索方法,字典的检索是基于格阵结构数据而被搜索的,其中待选择的字符和音素结构是格阵结构。当一种传统的字典,用于识别过程中时,有一种右截断压缩字典。在这种首语重复法(anaphora)压缩字典中,在字典中所存贮的识别字当同另一被识别字的首部一致时通过压缩来存贮。例如,有3个短语“computer architecture”,“computer system”和“computerintroduction”,其中第一个字“computer”被压缩掉,那是因为“computer”对这三个短语来说是公共的。利用首语重复法压缩的字典,对字符串检索处理,能得到可识别字符串集,这些字符串从所给的格阵字符的顶部开始顺序得到,用字典中所识别的字比较,然后实现匹配处理。然而,对上述传统的检索处理存在下述问题。当处理的例子中存在多个所识别结果的待选物时,存在手写字符的识别处理和语音识别处理。对这种类型的识别处理,字典检索是无法大规模实现的。尽管,基于散列法的字典检索主要的提供方法。然而,散列法中,当关键字冲突发生多次时,其控制逻辑变得复杂,且当格阵变大时,它的搜索效率变低。而B一树法,有其它问题,无法实现高速检索。TRIE法同上面所描述的方法比,能实现高速检索。而且,当TRIE字典是基于字符格阵被检索时,如果字符串通过待选物格阵字符组合而形成,待选择字符的数目越大,形成的字符串的数目越大。如果字典的检索是通过设定每个字符串作为关键字来实现,就会出现过量的组合,检索不可能在合理的操作时间内完成。结果,在这种识别处理中,需要多次执行字典检索,因此,就出现了不能高速检索问题。本专利技术的目的是提供一种利用基于所给格阵结构数据的TRIE字典实现高速检索的设备和方法。本专利技术的字典检索单元包括检索单元,复合关键字管理单元,检索状态存贮单元和输出单元。复合关键字管理单元管理复合关键字信息,复合关键字是有组织地结合的多个数据结点组成的,它包括二个或多个检索关键字,检索单元通过对上述复合关键字数据结点的遍历,检索对应于上面所述TRIE字典的记录。复合关键字是由表示例如识别结果的待选择语音和待选择字符的数据结点顺序连结而构成的。取决于链接到下面的数据结点数目,分支成很多数据结点序列。因此,一个复合关键字从头到尾包括多个数据结点序列,作为检索关键字。作为这类关键字,有一字符格阵。检索单元在对复合关键字从头到尾连续对数据结点遍历的同时,检测出是否记录符合每个数据结点的通路。如果存在符合的记录,则作为检索结果被检索,并存贮到检索状态存储器单元。进而,若没有相应的记录,下一个数据结点就成为检索的目标。而TRIE字典以同样方法被检索。检索状态存贮器单元,存贮代表在上述复合关键字中,所检索的数据结点的位置信息,以及通过检索单元得到的检索结果。为了存贮检索的状态,利用如OPEN表这样的数据结构。因为输出单元输出检索的结果,所得到的检索结果对用户来说,例如作为识别结果的待选字符串呈现。根据这种字典检索单元,在复合关键字从头连续展开时,复合关键字同TRIE字典所寄存的字符串比较。因为这样,对于包含在复合关键字中的多个检索关键字的重复部分,同字典的比较能一次实现,字典检索的效率能提高。而且,字典检索单元,从复合关键字头到每个数据结点,对每个数据结点计算表示字符串确定性的估算函数值。然后,当这值变成一个预定值时,检索通路的修剪通过终止检索能被实现。因而能实现高速处理。本专利技术的通过字典检索单元的检索方法能适合任何语言,如日文,中文,朝鲜文,英文,法文,德文等的校对支持处理和字符识别处理。即使在检索结果字符中包含有符号和图形也能被实现。而且,本专利技术能用于对如语音识别等进行处理。根据下面结合附图的详细说明,将使对本专利技术的了解更清楚,其中附图说明图1是本专利技术的字典检索单元的原理性方块图;图2是字典检索单元的模块图;图3是信息处理系统方块图;图4图示了一个源图象;图5图示了所显示的字符阵示例;图6图解说明用在控制结点上的第一个字符阵;图7图解说明一个控制结点;图8图解说明一个数据结点的结构;图9图解说明第二个字符阵,其中包含边界设定错误;图10是显示第二字符阵形成的树;图11图解说明TRIE字典的结构;图12图解说明OPEN表的结点结构;图13是第一检索过程的流程;图14图示说明深度优先搜索;图15显示了记录识别处理的流程;图16显示了广度优先搜索的流程;图17显示了最佳优先搜索的流程;图18显示了检索停止处理的流程;图19显示了检索再启动处理的流程;图20显示了第二检索处理的流程;图21显示了第三检索处理的流程;图22显示了用于校对支持的第三检索处理流程图;图23显示了第四检索处理的流程;图24图示说明一幅英文字的原始图象;图25图示说明一个英文字符格阵实例;图26图解说明第四字符格阵;图27图解说明第五字符格阵,其中包括边界设定错误;图28图解说明一英文字的TRIE字典;图29图解说明在最佳优先搜索中英文字的OPEN表。下文根据图,解释本专利技术的优选实施例。图1是本专利技术的字典检索装置的原理性方块图。在图1中,包括检索单元1,复合关键字管理单元2,检索状态存储器单元3及输出单元4。复合关键字管理单元2管理复合关键字信息,其中包括有组织地结合起来的多个数据结点,还包括2个或更多个检索关键字。检索单元1通过遍历上面所述的复合关键字中的数据结点,检索相应的记录,并检索对应上面所述的TRIE字典的记录。检索状态存贮器单元3存贮由上面的复合关键字中所检索的数据结点的位置信息,及从检索单元1中得到的检索结果。而输出单元4输出上面所述的检索结果。复合关键字包括数据结点,它们表示按识别顺序识别结果的选择字符和音素,并根据紧跟在每个结点之后被连接的数据结点数分支成多个数据结点序列。因此,一个单独的复合关键字包括作为检索关键字的从头到尾的多个数据结点序列,而字符格阵就是这种复合关键字。检索单元1通过复合关键字从头到尾顺序的遍历数据结点,检验是否对应于每个数据结点通道的记录存在于TRIE字典中。若发现记录存在,相应的记录作为检索结果被检索出,并存到检索状态存贮器单元3。而若没有找到相应的记录,则检索下一个数据结点,用同样的方法检索TRIE字典。这样得到的检索结果,例如可作为选择的字符串的识别结果,由外部输出并提供给用户。本文档来自技高网...

【技术保护点】
一个字典检索装置,通过用给定的检索关键字检索树检索字典并输出检索结果,它包括:复合关键字管理装置,用来管理复合关键字信息,复合关键字包括多个有组织组合成的数据结点,同时包括至少二个检索关键字;检索装置,通过访问所说复合关键字中的所说 数据结点,检索所说的树检索字典中相应的记录;检索条件存储装置,用于存储信息,这些信息表示在所说复合关键字中所访问的数据结点的位置,并存贮从所说检索装置中得到的检索结果。输出装置,用来输出所说的检索结果。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:小川知也
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1