【技术实现步骤摘要】
搜索数据处理方法、装置及计算机存储介质
[0001]本申请实施例涉及搜索
,尤其涉及搜索数据处理方法、装置及计算机存储介质。
技术介绍
[0002]在搜索场景中,对象经常会出现输入的搜索词拼写错误的情况,如果直接用错误的搜索词进行检索,往往不会得到正确对象的结果。为此,目前的搜索场景中多通过自动纠错功能,对拼写错误的搜索词进行纠错,以提升搜索的准确率,提升对象搜索场景的使用体验对象。例如,对象使用地图应用软件搜索兴趣点的场景中,对象可能输入错误的搜索词,这种情况下,应用软件能够自动对搜索词进行纠错,并提供正确的搜索词给对象进行选择或者基于纠错后的搜索词,提供正确的搜索结果,以大大提升对象的搜索使用体验。
[0003]目前,对对象输入的搜索词进行纠错时,多基于不同的规则进行召回和排序,以获得最终的纠错结果。该过程中,召回和排序通过紧耦合共同发挥作用,不同的召回规则对应着不同的排序规则,导致纠错实现复杂,成本高,且纠错结果也不够准确。基于此,需要提供一种低成本、高效且准确的纠错方案。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种搜索数据处理方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种搜索数据处理方法,包括:召回错误搜索词对应的纠错候选词;确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠 ...
【技术保护点】
【技术特征摘要】
1.一种搜索数据处理方法,包括:召回错误搜索词对应的纠错候选词;确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。2.如权利要求1所述的方法,其中,召回错误搜索词对应的纠错候选词,包括:通过并行执行的改写召回、拼音召回、形近召回、实体召回、组合召回,召回错误搜索词对应的纠错候选词。3.如权利要求2所述的方法,其中,在召回错误搜索词对应的纠错候选词之前,所述方法还包括:预先建立用于召回纠错候选词的资源池,所述资源池中设置有:包含有初始输入和改写输入的词组对的数据库、包含实体兴趣点的实体库、汉字替换候选数据库,和包含查询词或者查询词片段之间的替换概率的替换数据库;所述召回错误搜索词对应的纠错候选词,包括:基于所述错误搜索词和所述资源池,召回所述错误搜索词对应的纠错候选词。4.如权利要求3所述的方法,其中,预先建立用于召回纠错候选词的资源池,包括:统计对象改写日志,确定出可信的改写日志,其中,所述改写日志中包含初始输入和对应的改写输入;根据所述可信的改写日志,建立包含初始输入和改写输入的词组对的改写数据库;或者,基于兴趣点实体的信息和对象点击信息,建立包含兴趣点实体的实体库;或者,获得预设汉字集中的汉字的形近字和/或音近字,根据所述汉字及其对应的形近字和/或音近字,建立汉字替换候选数据库;或者,统计对象输入的查询词或者查询词片段,通过对齐模型确定查询词或者查询词片段之间的替换概率,建立所述替换数据库。5.如权利要求4所述的方法,其中,所述统计对象输入的查询词或者查询词片段,通过对齐模型确定查询词或者查询词片段之间的替换概率,建立所述替换数据库,包括:从多个任务场景中获得对齐后的平行语料,所述任务场景包括同义词替换、翻译替换或者查询改写;对所述平行语料进行分类,采用分类后的平行语料进行模型训练得到对齐模型;采用所述对齐模型获取查询词或者查询词片段在所述多个任务场景下所分别对应的替换资源,以及确定所述替换资源的替换概率,建立所述替换数据库。6.如权利要求5所述的方法,其中,从多个任务场景中获得对齐后的平行语料,包括:从离线资源中获取在查询时产生的改写记录;从获取得到的改写记录中滤除改写前后长度差异超过阈值的改写记录;对滤除后的改写记录进行对齐处理,获取对齐后的平行语料。7.如权利要求4所述的方法,其中:所述形近召回包括:从所述汉字替换候选数据库中,确定与所述错误搜索词字形相似的形近字作为纠错候选词;
所述改写召回包括:从所述改写数据库中,确定包含错误搜索词的改写日志,将所述改写日志中的改写输入确...
【专利技术属性】
技术研发人员:张高伟,赵德祥,崔健,宋健,任开,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。