一种搜索词识别方法及装置制造方法及图纸

技术编号:14458982 阅读:77 留言:0更新日期:2017-01-19 16:10
本申请提供了一种搜索词识别方法及装置,搜索词识别方法包括:计算待识别搜索词的搜索点击率;对待识别搜索词进行分词处理,得到多个词特征;利用统计语言模型和各个词特征,计算待识别搜索词出现的概率;计算待识别搜索词的全匹配结果数和相关结果数;计算全匹配结果数和相关结果数的比值,得到全匹配占比;利用搜索点击率、各个词特征、待识别搜索词出现的概率、全匹配结果数和全匹配占比,确定待识别搜索词为错误搜索词或正常搜索词。在本申请中,通过以上方式可以使智能纠错技术识别出更多错误搜索词,从而对更多的错误搜索词进行纠正,使搜索引擎返回更加精确的搜索结果给用户,提升用户的体验性。

【技术实现步骤摘要】

本申请涉及计算机领域,特别涉及一种搜索词识别方法及装置
技术介绍
搜索引擎接收的搜索词中往往包含错误搜索词(如因同音字选字错误产生的搜索词、因拼音拼写错误产生的搜索词、因字形输入错误产生的搜索词),导致搜索结果不能满足用户的需求。为了解决上述问题,目前多采用智能纠错技术对错误搜索词进行纠正,返回更加准确的搜索结果至用户。其中,智能纠错技术主要分为识别错误搜索词和纠正错误搜索词两个步骤。但是智能纠错技术识别错误搜索词的能力有限,导致很多错误搜索词无法被识别,从而导致无法对更多的错误搜索词进行纠正,造成搜索引擎无法返回更加精确的搜索结果至用户。
技术实现思路
为解决上述技术问题,本申请实施例提供一种数据交互处理方法及装置,以达到使智能纠错技术识别出更多错误搜索词,从而对更多的错误搜索词进行纠正,使搜索引擎返回更加精确的搜索结果给用户,提升用户的体验性的目的,技术方案如下:一种搜索词识别方法,包括:计算待识别搜索词的搜索点击率;对所述待识别搜索词进行分词处理,得到多个词特征;利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概率;计算所述待识别搜索词的全匹配结果数和相关结果数,所本文档来自技高网...

【技术保护点】
一种搜索词识别方法,其特征在于,包括:计算待识别搜索词的搜索点击率;对所述待识别搜索词进行分词处理,得到多个词特征;利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概率;计算所述待识别搜索词的全匹配结果数和相关结果数,所述全匹配结果数为针对所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的全部内容的结果的个数,所述相关结果数为针对所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的部分内容的结果的个数;计算所述全匹配结果数和所述相关结果数的比值,得到全匹配占比;利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索...

【技术特征摘要】
1.一种搜索词识别方法,其特征在于,包括:计算待识别搜索词的搜索点击率;对所述待识别搜索词进行分词处理,得到多个词特征;利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概率;计算所述待识别搜索词的全匹配结果数和相关结果数,所述全匹配结果数为针对所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的全部内容的结果的个数,所述相关结果数为针对所述待识别搜索词的所有搜索结果中包含所述待识别搜索词的部分内容的结果的个数;计算所述全匹配结果数和所述相关结果数的比值,得到全匹配占比;利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜索词。2.根据权利要求1所述的方法,其特征在于,所述利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜索词的过程,包括:利用错误率计算公式P(error)=fmdnα×fmdrβ×ctrχ×Pδ,计算所述待识别搜索词的错误率,其中,P(error)为所述待识别搜索词的错误率,fmdn为所述全匹配结果数,fmdr为所述全匹配占比,ctr为所述搜索点击率,P为所述待识别搜索词出现的概率,α为所述全匹配结果数的比例指数,β为所述全匹配占比的比例指数,χ为所述搜索点击率的比例指数,δ为所述待识别搜索词出现的概率的比例指数,α、β、χ和δ各自的取值范围为[0,1];判断所述待识别搜索词的错误率是否小于预设错误率阈值;若是,确定所述待识别搜索词为错误搜索词;若否,确定所述待识别搜索词为正常搜索词。3.根据权利要求1所述的方法,其特征在于,所述利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜索词的过程,包括:判断所述搜索点击率是否大于第一预设阈值;若是,确定所述待识别搜索词为正常搜索词;若否,判断所述全匹配结果数是否小于第二预设阈值;若否,确定所述待识别搜索词为正常搜索词;若是,判断所述全匹配占比是否小于第三预设阈值;若否,确定所述待识别搜索词为正常搜索词;若是,判断各个所述词特征中是否包含剧名实体词特征;若是,确定所述待识别搜索词为正常搜索词;若否,判断所述待识别搜索词出现的概率是否小于第四预设阈值;若否,确定所述待识别搜索词为正常搜索词;若是,确定所述待识别搜索词为错误搜索词。4.根据权利要求1所述的方法,其特征在于,所述利用所述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比,确定所述待识别搜索词为错误搜索词或正常搜索词的过程,包括:利用所述述搜索点击率、各个所述词特征、所述待识别搜索词出现的概率、所述全匹配结果数和所述全匹配占比和错误搜索词分类器计算所述待识别搜索词的正类概率和反类概率;在所述正类概率大于所述反类概率时,确定所述待识别搜索词的类别为正;在所述正类概率小于所述反类概率时,确定所述待识别搜索词的类别为反;在所述待识别搜索词的类别为正时,确定所述待识别搜索词为正常搜索词;在所述待识别搜索词的类别为反时,确定所述待识别搜索词为错误搜索词。5.根据权利要求1-4任意一项所述的方法,其特征在于,计算待识别搜索词的搜索点击率的过程,包括:从搜索日志中获取用户针对所述待识别搜索词的搜索次数和点击搜索结果次数;将所述点击搜索结果次数除以所述搜索次数,得到所述搜索点击率。6.根据权利要求5所述的方法,其特征在于,利用统计语言模型和各个所述词特征,计算所述待识别搜索词出现的概率的过程,包括:利用统计语言模型公式P(T)=P(W1W2…Wn)=P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1),计算所述待识别搜索词出现的概率;其中,P()为概率函数,T为所述待识别搜索词,W1W2…Wn为所述待识别搜索词的各个所述词特征,P(W1)为W1在训练语料中出现的概率,P(Wi|Wj)为W1W2…Wn中任意两个词特征Wi和Wj在所述训练语料中相邻出现的概率,i=j+1,i为大于1且不大于n的整数,j为不小于1且不大于n-1的整数,n为所述待识别搜索词的词特征的个数,所述训练语料包括多个正常搜索词。7.根据权利要求6所述的方法,其特征在于,计算所述待识别搜索词的全匹配结果数和相关结果数的过程,包括:获取搜索引擎针对所述待识别搜索词返回的多个搜索结果;分别判断所述搜索引擎针对所述待识别搜索词返回的各个搜索结果与所述待识别搜索词的文本匹配度是否大于匹配阈值;若是,确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为全匹配结果;若否,确定所述搜索引擎针对所述待识别搜索词返回的搜索结果为相关结果;统计所述全匹配结果的个数,得到所述全匹配结果数;统计所述相关结果的个数,得到所述相关结果数。8.一种搜索词识别装置,其特征在于,包括:第一计算单元,用于计算待识别搜索词的搜索点击率;分词单元,用于对所述待识别搜索词进行分词处理,得到多个词特征;第二计算单元,用于利用统计语...

【专利技术属性】
技术研发人员:胡军刘兵
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1