电子词典模糊检索方法技术

技术编号:4347983 阅读:280 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种电子词典模糊检索方法,属于模糊识别领域,该电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表;其中每个词条由一个或多个关键词组成,索引表记录了每一个关键词与包含该关键词的词条的对应关系,方法包括以下步骤:将用户输入的单词分成一个或多个关键词;检索每个关键词对应的一个或多个词条,分别计算输入的单词与这些词条之间的编辑距离;对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。由于支持模糊检索,使得用户在输入词条中有若干错误单字时,原本通过传统精确检索方式不能检索到的结果,通过本发明专利技术的方法很快就得到检索结果。

【技术实现步骤摘要】

本专利技术属于模式识别领域,特别是涉及一种。
技术介绍
目前的电子词典主要是支持精确匹配或者前缀匹配,精确匹配是在输入词条完整 无误时,电子词典才能给出正确的结果。以中英电子词典为例,输入中文词条"中国人民银 行",输出结果"People' s Bank of China",而输入"中国人们银行"或"申国人民银行"这 样有错误单字的词条则没有正确的结果输出。前缀匹配是电子词典在输入词条仅有前几个 字或者仅有前几个字正确的情况下,电子词典可以根据正确的前几个字给出一系列结果。 以中英电子词典为例,输入中文词条"中国人们银行",输出以"中国人"为前缀的词条的结 果。如果输入"申国人民银行"则输出以"申"为前缀的词条的结果。 目前的电子词典还没有支持模糊检索的。模糊检索是电子词典在输入词条中有 若干错误单字时,仍然可以输出一系列对应的结果。以中英电子词典为例,输入"中国人 民银行"、"中国人们银行"或"申国人民银行"均能检索到正确结果"People' s Bank of China ,,。 在一款OCR (OCR, Optical Character Recognition,光学字符识别)翻译词典中 (即首先获得图像,然后进行OCR识别,最后使用电子词典进行翻译并且输出翻译结果), OCR识别完成输出的识别结果可能有误识的字符,如果使用传统的检索方式很可能在词典 中找不到检索结果,因此,如果电子词典能够具有模糊检索的功能,势必会提高检索精度。
技术实现思路
针对目前的电子词典不支持模糊检索的功能,本专利技术的目的就是设计一种电子词 典模糊检索方法,以提高检索精度。 为了实现本专利技术目的,本专利技术提出了一种,所述电子词典 包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表;其 中每个词条由一个或多个关键词组成,所述索引表记录了所述关键词词典的每一个关键词 与所述词条词典中所有包含了该关键词的词条的对应关系,所述方法包括以下步骤 (a)分词对用户输入的单词使用关键词词典进行分词,将输入的单词分成一个 或多个关键词; (b)计算编辑距离根据分词步骤得到的关键词从所述关键词索引表中检索到其 中每个关键词对应的一个或多个词条,分别计算所述输入的单词与这些词条之间的编辑距 离; (c)选取检索结果对编辑距离进行排序并选取至少一个编辑距离最小的词条作 为检索结果。 优选地,其中步骤(a)采用逆向最大切分法进行分词,将输入的单词分成若干个 关键词。3 优选地,其中步骤(b)中所述的编辑距离可以指的是让一词条S1变成另一词条S2需要操作的字符之和,所述操作包括增加、删除、或替换字符。 优选地,其中步骤(c)后面还包括显示检索结果的步骤。 优选地,其中所述的词条词典为支持精确匹配或前缀的电子词典。 优选地,其中步骤(a)前还包括首先对用户输入的单词进行精确匹配检索,如果找到精确匹配检索则直接显示该精确匹配检索结果。 本专利技术具有积极的效果由于能够支持模糊检索,使得用户在输入词条中有若干 错误单字时,原本通过传统精确检索方式不能检索到的结果,通过本专利技术的方法和装置很 快就得到检索结果,既提高了速度,也提高了检索精度。本专利技术可用于手写输入的电子词 典;以及OCR翻译词典中。附图说明 图1为本专利技术的词典结构图; 图2为本专利技术检索流程中模糊检索的流程示意图。 具体实施例方式下面结合附图详细说明本专利技术的支持模糊检索的电子词典。 本专利技术的支持模糊检索的电子词典的数据结构,如图1所示,包括一个词条词典 10和一个关键词词典20。词条词典10指的是传统的电子词典,以中英电子词典为例包含 一系列如"中国人民银行"这样的词条。关键词词典20包含了词条词典中每个词条可以分 成的关键词,如"中国人民银行"包括了 "中国"、"人民"、"银行"三个关键词。而且本专利技术 的支持模糊检索的电子词典还包括一个关键词索引表(图中未示),该索引表记录了关键 词词典20的每一个关键词与词条词典10中所有包含了该关键词的词条的对应关系,一般 而言,一个关键词对应有几个词条。如图l所示,关键词"人民"在关键词词典中记录了所 有包含关键词"人民"的词条(如"中国人民"、"人民群众"等)在词条词典中的索弓l。索 引关系请看图l中的箭头。 所述的词条词典10即支持精确匹配或前缀的电子词典的实现,可以使用多种数 据结构(Hash表、搜索树、Trie树等)。本专利技术采用了双数组Trie树来实现。双数组Trie 树的数据结构是两个线性数组, 一个是base数组, 一个是check数组。base数组用于确定 状态的转移,check数组用于检验转移的正确性。以汉英词典为例,首先把所有GB2312中 的基本汉字转化成1-6768的顺序码,以作为状态转换的基本量值;然后将所有汉字的顺序 码作为初始状态放入base数组;接下来将不同词条的后续汉字顺序码放进数组,生成新的 状态,并对数组中初始状态的base值进行调整,以保证所有后续汉字能够放入数组;以此 类推,直到将所有词条状态存入数组;同时用负值表示双数组Trie树的终止状态。 所述的关键词词典20的实现,也可以使用多种数据结构(Hash表、搜索树、Trie树 等)。同词条词典lO—样,本专利技术采用了双数组Trie树来实现,并且在每个关键词结构中 添加了一个索引列表来记录所有包括该关键词的词条在词条词典10中的索引。 如图1所示的本专利技术词典结构的构建方法如下 1)将包含所有词条的词条库中的每个词条分成关键词,并且保持关键词与其在原词条中的语义相同。组成关键词库。如"中国人民银行"分成了"中国"、"人民"、"银行"三个关键字。 2)将这样的关键词库建立成关键词词典20。 3)使用根据词条库建立的词条词典IO,建立这两个词典的同时,对应于每个关键 词有一个关键词索引表,该索引指向一个或多个词条,如"中国人民银行"分别要在"中国"、 "人民"、"银行"三个关键词的索引表中记录"中国人民银行"在词条词典10中的索引。 本专利技术的支持模糊检索的电子词典的检索方法,首先对用户输入的单词进行传统 的精确匹配检索,如果找到精确匹配检索则直接显示该精确匹配检索结果;如果不能找到, 则进行本专利技术的模糊检索。 图2为本专利技术一个实施例中检索流程中模糊检索的流程示意图。模糊匹配检索包 括以下步骤 步骤210,首先对输入的单词使用关键词词典20采用逆向最大切分法进行分词, 将输入的单词分成若干个关键词,如将"中国人民银行"分成"中国"、"人民"、"银行"三个 关键词;如果有分词结果则进入下个步骤,否则显示未检索到;该步骤的分词结果得到了 一个或多个关键词。 步骤220,根据分词结果得到的关键词从索引表中检索到其中每个关键词对应的 词条,分别计算输入的单词与这些词条之间的编辑距离,如检索"申国人民"时,词条被分成 的关键词为"申"、"国"、"人民",其中选取最长的关键词"人民"在索引表中对应的词条有 "中华人民共和国"、"中国人民"、"人民银行"、"人民解放军"等,与输入词条"申国人民"的 编辑距离分别为"中华人民共和国"-5(两次替换操作,"申国"= >中华;三次插入操作,插 入"共和国"),"中国人民"-1(一次替换操作,"申"=本文档来自技高网...

【技术保护点】
一种电子词典模糊检索方法,其特征是:所述电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表;其中每个词条由一个或多个关键词组成,所述索引表记录了所述关键词词典的每一个关键词与所述词条词典中所有包含了该关键词的词条的对应关系,所述方法包括以下步骤:(a)分词:对用户输入的单词使用关键词词典进行分词,将输入的单词分成一个或多个关键词;(b)计算编辑距离:根据分词步骤得到的关键词从所述关键词索引表中检索到其中每个关键词对应的一个或多个词条,分别计算所述输入的单词与这些词条之间的编辑距离;(c)选取检索结果:对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:王琛朱军民
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1