一种面向英文搜索引擎的中式英文查询纠错方法和系统技术方案

技术编号:13781456 阅读:45 留言:0更新日期:2016-10-04 18:14
本发明专利技术公开了一种面向英文搜索引擎的中式英文查询纠错方法和系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,中式英文纠错模块基于中式英文表达库,对查询词进行中式英文进行纠错,增加了基于拼接邻近词和拆分长词选择候选纠错查询方法,提高候选纠错查询集的准确度。

【技术实现步骤摘要】

本专利技术涉及信息检索
,具体为一种面向英文搜索引擎的中式英文查询纠错方法和系统
技术介绍
搜索引擎是网络信息检索的主要工具,随着信息全球化的飞速发展,用户对英文检索的需求日趋强烈,更多的用户使用英文查询词获取相关信息,尤其是学术资源。据统计,英文搜索引擎中的查询约有10%-15%的查询词存在拼写错误。由于搜索引擎通过用户输入的查询词提供相匹配的信息,查询词的正确性将直接影响搜索引擎搜索结果的准确性。通过对查询词进行纠错处理,可以展现更为优质的信息检索结果,为用户提供更为精准的搜索服务。目前,英文查询纠错技术的重点主要集中在单词层面,即对拼写错误的单词进行纠错,首先基于编辑距离为查询词选择候选纠错查询集,然后根据统计模型计算出候选纠错查询集中每个候选纠错查询的出现概率,最后综合候选纠错查询的编辑距离与其出现概率,从候选纠错查询集中选择最优的纠错查询。现有模型对语法层面考虑较少,对由中国用户使用英语的习惯带来的一些错误考虑得也不多,没有对查询词中出现的用词不规范和词序不当等情况进行纠错。中国用户在使用英语的过程中可能会按照组织中文的方式对英文单词进行组织,即出现语序不正确的情况,比如在表达“我很喜欢它”时,可能会出现“I very much like it”,正确的形式应是“I like it verymuch”。此外,在表达一个概念的时候也可能会出现选用“错误的”词组的情况,即搭配问题,选用的英文词组对应的中文可能是有意义的,但是英文词组本身却是不正确的搭配,比如词组“view point dynamics”,中文意思是观点动力学,是有意义的,但在英文中“view point dynamics”并不常见,正确的形式应该是“opinion dynamics”。另外,中国用户由于自身语言习惯,可能会在检索时出现错误输入汉语拼音,将单个英文单词错拆分成多个英文单词输入,多个英文单词合并输入,以及英文单词发音错误等导致的输入错误问题。
技术实现思路
本专利技术的目的在于提供一种英文查询纠错方法及系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种英文查询词纠错方法及系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,为中式英文纠错模块提供辅助信息,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,本模块实现了对用户查询词的拼音兼容,中式英文纠错模块基于中式英文表达库,针对中国用户表达英文的特点,对查询词进行中式英文进行纠错,结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出,具体步骤如下:步骤一:中式英文表达库构建模块,中式英文表达库的构建主要分为三步,首先统计英文中常见的词组,其次将常见英文词组翻译为中文词组,最后将中文词组“直译”为英文,至此建立起数据结构为KEY(中式英文词组)-VALUE(正确英文词组)形式的纠错数据库,具体步骤如,第一步,统计英文常见词组,首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率,取出由两个单词构成的词组中的词频在前60%、由三个单词构成的词组中的词频在前50%、由四个单词构成的词组中的词频在前40%、由五个单词的构成的词组中的词频在前30%的所有词组构成常见的英文词组,第二步,将第一步中的常见英文词组翻译成中文词组,词组英译中翻译采用基于统计机器翻译模型的方法,第三步,将第二步中的中文词组“直译”成英文词组,第四步,对中式英文表达库进行过滤,如果纠错对中“直译”的英文串在A1中的常见英文词组中,那么删除这个纠错对,第五步,通过第一步到第四步,“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库;步骤二:数据预处理模块,对用户输入的查询词进行规范化处理,主要采取英文字母大写转小写、全角标点转半角、字符串两侧空格去除、字符串中连续的空格、连接符、斜杠变为一个等处理方式;步骤三:拼音纠错模块,将输入的英文查询串进行分词,通过拼音词典依次判断分割后的每个单词是否为拼音,如果全部为拼音,则调用拼音翻译模块把拼音翻译成汉字,如果翻译成功,则纠错程序直接返回翻译后的汉字,判断不为拼音或未翻译成功,则继续进行纠错,具体步骤如,(1)首先对输入英文查询串使用空格切分,拼音识别,(2)对(1)中的切分结果进行逐个识别,如果识别查询词是拼音,基于拼音翻译汉字的方法,将翻译结果返回给用户,如果识别结果不为拼音,则继续进行后续步骤的纠错处理,(3)拼音翻译,基于拼音词典、隐马尔科夫模型等方法,将拼音翻译为汉字,再将汉字翻译为相应的英文检索词,首先查找拼音词典,如果该拼音在词典中,则直接返回词典中所对应的中文,如果该拼音没有出现在词典中,采用隐马尔可夫模型和Viterbi算法实现拼音到汉字的转化,先由拼音汉字语料训练得到隐马尔可夫模型,再基于Viterbi算法求解得到拼音查询串对应的最优汉字序列,(4)在(3)中翻译成功后,则将翻译结果返回给用户,如果翻译失败,则继续进行后续步骤的纠错处理;步骤四:中式英文纠错模块,基于步骤一构建的中式英文表达库进行纠错查询,如果中式英文表达库中存在该查询词对应的纠错对,则将其对应的正确英文词组作为纠错结果返回给用户,否则,查询词保持不变,继续进行后续步骤的纠错处理;步骤五:候选查询词纠错模块,首先对查询串进行分词,保存切分结果,后续处理均基于切分结果处理,基于切分结果,分别通过基于权重编辑距离、基于拼接词、基于拆分词分别获得相应的候选纠错查询词,最后根据评分标准,输出事先指定数目的最优纠错结果,第一,对用户输入的英文串进行英文分词,第二,基于权重编辑距离方法,从英文词典中获取候选词集合,具体步骤如,步骤a,遍历查询词切分结果,判断单词是否在英文单词词典中,如果存在则遍历下一个单词,否则进行步骤b,步骤b,判断单词是否为包含连字符或斜杠的词,如TCP/IP,Well-known,如果不是,则进行步骤c,如果是,则把单词按照非字母符号分割,然后通过英文单词词典判断是否分割后的单词都在字典中,如果都在字典中,则认为此单词没有问题,继续遍历下一个单词,否则进行步骤c,步骤c,通过权重编辑距离获取单词的候选词集合,遍历已生成好的Trie树词典,采用深度优先的先序遍历算法来查找编辑距离不大于t=min(3,查询词长度/4)候选词,编辑距离计算公式如,其中,Si为原始词,Dj为转换词,lev(Si,Dj)表示S单词的[0,i]位与D单词[0,j]位之间的编辑距离。Si到Dj的转换是通过替换、增加、删除字母等操作,需经多次操作实现。在获取满足条件的候选词的同时,获取原词变换到候选词需要进行的变换记录,步骤d,权重编辑距离评分,基于变换记录和权重编辑距离评分的计算规则,计算满足条件的候选词的评分,最后选取评分最高的M个作为最后的候选词,步骤e,将候选词评分最高的K个单词作为候选词,其中K可取32,本文档来自技高网
...

【技术保护点】
一种英文查询词纠错方法及系统,其特征在于:包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,为中式英文纠错模块提供辅助信息,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,本模块实现了对用户查询词的拼音兼容,中式英文纠错模块基于中式英文表达库,针对中国用户表达英文的特点,对查询词进行中式英文进行纠错,结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出,具体步骤如下:步骤一:中式英文表达库构建模块,中式英文表达库的构建主要分为三步,首先统计英文中常见的词组,其次将常见英文词组翻译为中文词组,最后将中文词组“直译”为英文,至此建立起数据结构为KEY(中式英文词组)‑VALUE(正确英文词组)形式的纠错数据库,具体步骤如,第一步,统计英文常见词组,首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率,取出由两个单词构成的词组中的词频在前60%、由三个单词构成的词组中的词频在前50%、由四个单词构成的词组中的词频在前40%、由五个单词的构成的词组中的词频在前30%的所有词组构成常见的英文词组,第二步,将第一步中的常见英文词组翻译成中文词组,词组英译中翻译采用基于统计机器翻译模型的方法,第三步,将第二步中的中文词组“直译”成英文词组,第四步,对中式英文表达库进行过滤,如果纠错对中“直译”的英文串在A1中的常见英文词组中,那么删除这个纠错对,第五步,通过第一步到第四步,“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库;步骤二:数据预处理模块,对用户输入的查询词进行规范化处理,主要采取英文字母大写转小写、全角标点转半角、字符串两侧空格去除、字符串中连续的空格、连接符、斜杠变为一个等处理方式;步骤三:拼音纠错模块,将输入的英文查询串进行分词,通过拼音词典依次判断分割后的每个单词是否为拼音,如果全部为拼音,则调用拼音翻译模块把拼音翻译成汉字,如果翻译成功,则纠错程序直接返回翻译后的汉字,判断不为拼音或未翻译成功,则继续进行纠错,具体步骤如,(1)首先对输入英文查询串使用空格切分,拼音识别,(2)对(1)中的切分结果进行逐个识别,如果识别查询词是拼音,基于拼音翻译汉字的方法,将翻译结果返回给用户,如果识别结果不为拼音,则继续进行后续步骤的纠错处理,(3)拼音翻译,基于拼音词典、隐马尔科夫模型等方法,将拼音翻译为汉字,再将汉字翻译为相应的英文检索词,首先查找拼音词典,如果该拼音在词典中,则直接返回词典中所对应的中文,如果该拼音没有出现在词典中,采用隐马尔可夫模型和Viterbi算法实现拼音到汉字的转化,先由拼音汉字语料训练得到隐马尔可夫模型,再基于Viterbi算法求解得到拼音查询串对应的最优汉字序列,(4)在(3)中翻译成功后,则将翻译结果返回给用户,如果翻译失败,则继续进行后续步骤的纠错处理;步骤四:中式英文纠错模块,基于步骤一构建的中式英文表达库进行纠错查询,如果中式英文表达库中存在该查询词对应的纠错对,则将其对应的正确英文词组作为纠错结果返回给用户,否则,查询词保持不变,继续进行后续步骤的纠错处理;步骤五:候选查询词纠错模块,首先对查询串进行分词,保存切分结果,后续处理均基于切分结果处理,基于切分结果,分别通过基于权重编辑距离、基于拼接词、基于拆分词分别获得相应的候选纠错查询词,最后根据评分标准,输出事先指定数目的最优纠错结果,第一,对用户输入的英文串进行英 文分词,第二,基于权重编辑距离方法,从英文词典中获取候选词集合,具体步骤如,步骤a,遍历查询词切分结果,判断单词是否在英文单词词典中,如果存在则遍历下一个单词,否则进行步骤b,步骤b,判断单词是否为包含连字符或斜杠的词,如TCP/IP,Well‑known,如果不是,则进行步骤c,如果是,则把单词按照非字母符号分割,然后通过英文单词词典判断是否分割后的单词都在字典中,如果都在字典中,则认为此单词没有问题,继续遍历下一个单词,否则进行步骤c,步骤c,通过权重编辑距离获取单词的候选词集合,遍历已生成好的Trie树词典,采用深度优先的先序遍历算法来查找编辑距离不大于t=min(3,查询词长度/4)候选词,编辑距离计算公式如,其中,Si为原始词,Dj为转换词,lev(Si,Dj)表示S单词的[0,i]位与D单词[0,j]位之间的编辑距离。Si到Dj的转换是通过替换、增加、删除字母等操作,需经多次操作实现。在获取满足条件的候选词的同时,获取原词变换到候选词...

【技术特征摘要】
1.一种英文查询词纠错方法及系统,其特征在于:包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,为中式英文纠错模块提供辅助信息,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,本模块实现了对用户查询词的拼音兼容,中式英文纠错模块基于中式英文表达库,针对中国用户表达英文的特点,对查询词进行中式英文进行纠错,结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出,具体步骤如下:步骤一:中式英文表达库构建模块,中式英文表达库的构建主要分为三步,首先统计英文中常见的词组,其次将常见英文词组翻译为中文词组,最后将中文词组“直译”为英文,至此建立起数据结构为KEY(中式英文词组)-VALUE(正确英文词组)形式的纠错数据库,具体步骤如,第一步,统计英文常见词组,首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率,取出由两个单词构成的词组中的词频在前60%、由三个单词构成的词组中的词频在前50%、由四个单词构成的词组中的词频在前40%、由五个单词的构成的词组中的词频在前30%的所有词组构成常见的英文词组,第二步,将第一步中的常见英文词组翻译成中文词组,词组英译中翻译采用基于统计机器翻译模型的方法,第三步,将第二步中的中文词组“直译”成英文词组,第四步,对中式英文表达库进行过滤,如果纠错对中“直译”的英文串在A1中的常见英文词组中,那么删除这个纠错对,第五步,通过第一步到第四步,“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库;步骤二:数据预处理模块,对用户输入的查询词进行规范化处理,主要采取英文字母大写转小写、全角标点转半角、字符串两侧空格去除、字符串中连续的空格、连接符、斜杠变为一个等处理方式;步骤三:拼音纠错模块,将输入的英文查询串进行分词,通过拼音词典依次判断分割后的每个单词是否为拼音,如果全部为拼音,则调用拼音翻译模块把拼音翻译成汉字,如果翻译成功,则纠错程序直接返回翻译后的汉字,判断不为拼音或未翻译成功,则继续进行纠错,具体步骤如,(1)首先对输入英文查询串使用空格切分,拼音识别,(2)对(1)中的切分结果进行逐个识别,如果识别查询词是拼音,基于拼音翻译汉字的方法,将翻译结果返回给用户,如果识别结果不为拼音,则继续进行后续步骤的纠错处理,(3)拼音翻译,基于拼音词典、隐马尔科夫模型等方法,将拼音翻译为汉字,再将汉字翻译为相应的英文检索词,首先查找拼音词典,如果该拼音在词典中,则直接返回词典中所对应的中文,如果该拼音没有出现在词典中,采用隐马尔可夫模型和Viterbi算法实现拼音到汉字的转化,先由拼音汉字语料训练得到隐马尔可夫模型,再基于Viterbi算法求解得到拼音查询串对应的最优汉字序列,(4)在(3)中翻译成功后,则将翻译结果返回给用户,如果翻译失败,则继续进行后续步骤的纠错处理;步骤四:中式英文纠错模块,基于步骤一构建的中式英文表达库进行纠错查询,如果中式英文表达库中存在该查询词对应的纠错对,则将其对应的正确英文词组作为纠错结果返回给用户,否则,查询词保持不变,继续进行后续步骤的纠错处理;步骤五:候选查询词纠错模块,首先对查询串进行分词,保存切分结果,后续处理均基于切分结果处理,基于切分结果,分别通过基于权重编辑距离、基于拼接词、基于拆分词分别获得相应的候选纠错查询词,最后根据评分标准,输出事先指定数目的最优纠错结果,第一,对用户输入的英文串进行英 文分词,第二,基于权重编辑距离方法,从英文词典中获取候选词集合,具体步骤如,步骤a,遍历查询词切分结果,判断单词是否在英文单词词典中,如果存在则遍历下一个单词,否则进行步骤b,步骤b,判断单词是否为包含连字符或斜杠的词,如TCP/IP,Well-known,如果不是,则进行步骤c,如果是,则把单词按照非字母符号分割,然后通过英文单词词典判断是否分割后的单词都在字典中,如果都在字典中,则认为此单词没有问题,继续遍历下一个单词,否则进行步骤c,步骤c,通过权重编辑距离获取单词的候选词集合,遍历已生成好的Trie树词典,采用深度优先的先序遍历算法来查找编辑距离不大于t=min(3,查询词长度/4)候选词,编辑距离计算公式如,其中,Si为原始词,Dj为转换词,lev(Si,Dj)表示S单词的[0,i]位与D单...

【专利技术属性】
技术研发人员:符文君强成仓魏圣磊宁洪珂张振海
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1