The invention discloses a spelling error correction method and system ES search engine, relates to the field of information technology, the method includes the segmentation ansj user input spelling content is divided into a plurality of entries; followed by error detection for each entry, if there is wrong entries, error model search in error model library with the entry error matching, and obtain the correct candidate words and wrong entries in the corresponding error model matching; correct calculation of each candidate word in each matching error model of the error model, according to the score, and according to each kind of matching error model scores constitute score vector using L2R model; to deal with the score vector, generating an error model of the score, and according to the error model and the language model score is determined to correct each candidate word to determine the total score; The candidate words in the correct score the highest correct candidate words as display. The invention improves the accuracy of spelling error correction.
【技术实现步骤摘要】
本专利技术涉及信息
,尤其涉及一种ES搜索引擎的拼写纠错方法及系统。
技术介绍
Elastic Search(简称ES)是一个基于Lucene的搜索服务器,其提供了一个分布式多用户能力的全文搜索引擎,是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。目前,搜索引擎中的拼写纠错,也称拼写检查,是一种被各类搜索引擎广泛应用的功能,能够根据用户输入的错误的查询内容返回正确的查询请求。现有技术中的拼写纠错方法通常为:依据用户的搜索日志统计提供纠错词后用户点击输入查询词的搜索结果的次数、用户点击纠错词的次数以及点击纠错词的搜索结果的次数;利用统计的用户点击输入查询词的搜索结果的次数、用户点击纠错词的次数以及点击纠错词的搜索结果的次数计算纠错词的纠错优劣值,并依据纠错优劣值生成纠错词的检测结果。但上述现有技术中,只是根据用户的搜索日志进行统计的,若用户的搜索日志不全面,或用户的搜索日志内也存在错误词,则会导致检测结果不准确,即拼写纠错的准确度低。
技术实现思路
有鉴于此,本专利技术提供一种ES搜索引擎的拼写纠错方法及系统,其在扩展纠错种类的同时,提高了拼写纠错的准确度。本专利技术通过以下技术手段解决上述问题:本专利技术的一种ES搜索引擎的拼写纠错方法,包括:采用ansj分词器将用户输入的拼写内容分为若干个词条,其中,所述拼写内容包括拼音、汉字或英文;对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词;根据匹配的错误模型计算每 ...
【技术保护点】
一种ES搜索引擎的拼写纠错方法,其特征在于,包括:采用ansj分词器将用户输入的拼写内容分为若干个词条,其中,所述拼写内容包括拼音、汉字或英文;对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词;根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量;采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分;确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示。
【技术特征摘要】
1.一种ES搜索引擎的拼写纠错方法,其特征在于,包括:采用ansj分词器将用户输入的拼写内容分为若干个词条,其中,所述拼写内容包括拼音、汉字或英文;对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词;根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量;采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分;确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示。2.如权利要求1所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述语言模型为纠正候选词在文档中的出现次数与文档中所有字数的比值。3.如权利要求2所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库包括拼音索引模型;所述拼音索引模型IndexInput_PY=<PingYin,word1,word2......wordn>;其中,IndexInput_PY为拼音索引模型,PingYin是纠正候选词的拼音,word为拼音对应的汉字,n为大于等于1的整数。4.如权利要求3所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库还包括编辑距离模型;所述编辑距离模型其中,P1(w|c)为编辑距离模型,w为错误词条,c为正确的纠正候选词,Distedit(w,c)为错误词条到正确的纠正候选词之间的编辑距离,length(w)为错误词条的长度,length(c)为正确的纠正候选词的长度,MAX为取最大值。5.如权利要求4所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库还包括英文语音纠错模型,所述英文语音纠错模型是根据英文发音分别计算纠错候选词为英文的英语读音编码和错误词条为英文的英语读音编码,当c与w的英语读音编码相同时,则P2(w|c)=1;当c与w的英语读音编码不相同时,则P2(w|c)=0;其中,P2(w|c)为英文语音纠错模型,所述英语读音编码为Double Metaphone Code。6...
【专利技术属性】
技术研发人员:刘桂良,赖旦冉,杨国辉,宣明,
申请(专利权)人:广州智索信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。