电子词典模糊检索方法技术

技术编号：4347983 阅读：280 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种电子词典模糊检索方法，属于模糊识别领域，该电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表；其中每个词条由一个或多个关键词组成，索引表记录了每一个关键词与包含该关键词的词条的对应关系，方法包括以下步骤：将用户输入的单词分成一个或多个关键词；检索每个关键词对应的一个或多个词条，分别计算输入的单词与这些词条之间的编辑距离；对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。由于支持模糊检索，使得用户在输入词条中有若干错误单字时，原本通过传统精确检索方式不能检索到的结果，通过本发明专利技术的方法很快就得到检索结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于模式识别领域，特别是涉及一种。
技术介绍
目前的电子词典主要是支持精确匹配或者前缀匹配，精确匹配是在输入词条完整无误时，电子词典才能给出正确的结果。以中英电子词典为例，输入中文词条"中国人民银行"，输出结果"People' s Bank of China",而输入"中国人们银行"或"申国人民银行"这样有错误单字的词条则没有正确的结果输出。前缀匹配是电子词典在输入词条仅有前几个字或者仅有前几个字正确的情况下，电子词典可以根据正确的前几个字给出一系列结果。以中英电子词典为例，输入中文词条"中国人们银行"，输出以"中国人"为前缀的词条的结果。如果输入"申国人民银行"则输出以"申"为前缀的词条的结果。目前的电子词典还没有支持模糊检索的。模糊检索是电子词典在输入词条中有若干错误单字时，仍然可以输出一系列对应的结果。以中英电子词典为例，输入"中国人民银行"、"中国人们银行"或"申国人民银行"均能检索到正确结果"People' s Bank of China ，，。在一款OCR (OCR, Optical Character Recognition,光学字符识别)翻译词典中 (即首先获得图像，然后进行OCR识别，最后使用电子词典进行翻译并且输出翻译结果)， OCR识别完成输出的识别结果可能有误识的字符，如果使用传统的检索方式很可能在词典中找不到检索结果，因此，如果电子词典能够具有模糊检索的功能，势必会提高检索精度。
技术实现思路
针对目前的电子词典不支持模糊检索的功能，本专利技术的目的就是设计一种电子词典模糊检索方法，以提高检索精度...

【技术保护点】
一种电子词典模糊检索方法，其特征是：所述电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表；其中每个词条由一个或多个关键词组成，所述索引表记录了所述关键词词典的每一个关键词与所述词条词典中所有包含了该关键词的词条的对应关系，所述方法包括以下步骤：（ａ）分词：对用户输入的单词使用关键词词典进行分词，将输入的单词分成一个或多个关键词；（ｂ）计算编辑距离：根据分词步骤得到的关键词从所述关键词索引表中检索到其中每个关键词对应的一个或多个词条，分别计算所述输入的单词与这些词条之间的编辑距离；（ｃ）选取检索结果：对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：王琛，朱军民，
申请(专利权)人：汉王科技股份有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人