搜索数据处理方法、装置及计算机存储介质制造方法及图纸

技术编号:34548374 阅读:26 留言:0更新日期:2022-08-17 12:31
本申请实施例提供了搜索数据处理方法、装置及计算机存储介质。根据本申请实施例提供的方案,预先建立了资源池和用于指示纠错候选词的多模态特征,当对象输入了错误搜索词时,可以首先从多方面召回纠错候选词,进而采用排序模型基于多模态特征对召回的纠错候选词进行打分排序,根据排序打分结果来确定纠错结果。根据排序打分结果来确定纠错结果。根据排序打分结果来确定纠错结果。

【技术实现步骤摘要】
搜索数据处理方法、装置及计算机存储介质


[0001]本申请实施例涉及搜索
,尤其涉及搜索数据处理方法、装置及计算机存储介质。

技术介绍

[0002]在搜索场景中,对象经常会出现输入的搜索词拼写错误的情况,如果直接用错误的搜索词进行检索,往往不会得到正确对象的结果。为此,目前的搜索场景中多通过自动纠错功能,对拼写错误的搜索词进行纠错,以提升搜索的准确率,提升对象搜索场景的使用体验对象。例如,对象使用地图应用软件搜索兴趣点的场景中,对象可能输入错误的搜索词,这种情况下,应用软件能够自动对搜索词进行纠错,并提供正确的搜索词给对象进行选择或者基于纠错后的搜索词,提供正确的搜索结果,以大大提升对象的搜索使用体验。
[0003]目前,对对象输入的搜索词进行纠错时,多基于不同的规则进行召回和排序,以获得最终的纠错结果。该过程中,召回和排序通过紧耦合共同发挥作用,不同的召回规则对应着不同的排序规则,导致纠错实现复杂,成本高,且纠错结果也不够准确。基于此,需要提供一种低成本、高效且准确的纠错方案。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种搜索数据处理方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种搜索数据处理方法,包括:召回错误搜索词对应的纠错候选词;确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
[0006]根据本申请实施例的第二方面,提供了另一种搜索数据处理方法,包括:接收对象的查询请求;对所述查询请求中错误的地理搜索关键词进行纠错处理,获得正确地理搜索关键词,其中,所述纠错数据处理为权利要求1

10中任一项搜索数据处理方法所述的数据处理;根据所述正确地理搜索关键词,对所述查询请求进行处理,获得查询结果。
[0007]根据本申请实施例的第三方面,提供了一种搜索数据处理装置,包括:纠错候选确定模块,召回错误搜索词对应的纠错候选词;特征确定模块,确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;纠错模块,根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
[0008]根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第
一方面或第二方面所述的搜索数据处理方法对应的操作。
[0009]根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的搜索数据处理方法。
[0010]根据本申请实施例提供的方案,预先建立了资源池和用于指示纠错候选词的多模态特征,当对象输入了错误搜索词时,可以首先从多方面召回纠错候选词,进而采用排序模型基于多模态特征对召回的纠错候选词进行打分排序,根据排序打分结果来确定纠错结果。由此,无需针对不同召回规则设置不同的排序规则,从而对于纠错候选词的召回与排序策略进行了解耦,简化了纠错实现,降低了纠错成本。并且,还有利于快速上线各种召回机制,快速补充需要的多模态特征;以及,对于纠错候选词的特征表达也更完备,排序结果更准确、合理。
附图说明
[0011]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0012]图1A为本申请实施例所涉及的系统的框架示意图;
[0013]图1B为本申请实施例所提供的一种搜索数据处理方法的流程示意图;
[0014]图2为本申请实施例所提供的统一排序的框架示意图;
[0015]图3为本申请实施例所提供的另一种搜索数据处理方法的流程示意图;
[0016]图4为本申请实施例所提供的一种数据处理装置的结构示意图;
[0017]图5为申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
[0018]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0019]下面结合本申请实施例附图进一步说明本申请实施例具体实现。如图1A所示,图1A为本申请实施例所涉及系统的框架示意图。具体而言包括三个部分:离线建设、在线召回和在线统一排序。
[0020]在离线建设部分,预先基于对象的改写记录进行统计和挖掘,也可以根据实际中的兴趣点实体建立相关的实体库以及对应的拼音库,以及对汉字资源的挖掘(包括音近或者形近的汉字挖掘),同时还可以进行特征的挖掘以及模型的训练。这种离线建设可以是预先完成的,也可以是根据需要不断的补充和迭代更新。
[0021]在离线部分可以预先建立用于召回纠错候选词的资源池,所述资源池中设置有:包含有初始输入和改写输入的词组对的数据库、包含实体兴趣点的实体库、汉字替换候选数据库和包含查询词或者查询词片段之间的替换概率的替换数据库。
[0022]对于改写数据库而言,可以通过如下方式预先建立:统计对象改写日志,确定出可
信的改写日志,其中,所述改写日志中包含初始输入和对应的改写输入,即统计对象的改写日志,确定出可信的改写日志。
[0023]例如在改写日志中,对象首先输入了错误输入“搜索词1”进行检索失败,然后又输入了改写输入“搜索词2”进行检索。那么即可以将(搜索词1,搜索词2)作为一个纠错对。进而对这样的纠错对进行可信认定,例如,高频出现的纠错对可认为是可信的,即大量对象最终选择了搜索词2进行检索;或者,确定搜索词2与现实中的实体对应,那么也可以确定纠错对是可信的。从而可以根据所述挖掘得到的可信的改写日志,建立包含初始输入和改写输入的词组对的改写数据库,以便后续查询召回。
[0024]兴趣点的实体库,可以通过存储实际中存在的实体兴趣点的方式建立,例如,通过实体兴趣点的实体库存储实际存在的街道名称、建筑名称、酒店名称等等。
[0025]汉字替换候选数据库可以用于存储拼音形似或者字形相似的汉字组。例如,读音相似包括拼音相同或者模糊音,例如前鼻音和后鼻音,如tansh本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索数据处理方法,包括:召回错误搜索词对应的纠错候选词;确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。2.如权利要求1所述的方法,其中,召回错误搜索词对应的纠错候选词,包括:通过并行执行的改写召回、拼音召回、形近召回、实体召回、组合召回,召回错误搜索词对应的纠错候选词。3.如权利要求2所述的方法,其中,在召回错误搜索词对应的纠错候选词之前,所述方法还包括:预先建立用于召回纠错候选词的资源池,所述资源池中设置有:包含有初始输入和改写输入的词组对的数据库、包含实体兴趣点的实体库、汉字替换候选数据库,和包含查询词或者查询词片段之间的替换概率的替换数据库;所述召回错误搜索词对应的纠错候选词,包括:基于所述错误搜索词和所述资源池,召回所述错误搜索词对应的纠错候选词。4.如权利要求3所述的方法,其中,预先建立用于召回纠错候选词的资源池,包括:统计对象改写日志,确定出可信的改写日志,其中,所述改写日志中包含初始输入和对应的改写输入;根据所述可信的改写日志,建立包含初始输入和改写输入的词组对的改写数据库;或者,基于兴趣点实体的信息和对象点击信息,建立包含兴趣点实体的实体库;或者,获得预设汉字集中的汉字的形近字和/或音近字,根据所述汉字及其对应的形近字和/或音近字,建立汉字替换候选数据库;或者,统计对象输入的查询词或者查询词片段,通过对齐模型确定查询词或者查询词片段之间的替换概率,建立所述替换数据库。5.如权利要求4所述的方法,其中,所述统计对象输入的查询词或者查询词片段,通过对齐模型确定查询词或者查询词片段之间的替换概率,建立所述替换数据库,包括:从多个任务场景中获得对齐后的平行语料,所述任务场景包括同义词替换、翻译替换或者查询改写;对所述平行语料进行分类,采用分类后的平行语料进行模型训练得到对齐模型;采用所述对齐模型获取查询词或者查询词片段在所述多个任务场景下所分别对应的替换资源,以及确定所述替换资源的替换概率,建立所述替换数据库。6.如权利要求5所述的方法,其中,从多个任务场景中获得对齐后的平行语料,包括:从离线资源中获取在查询时产生的改写记录;从获取得到的改写记录中滤除改写前后长度差异超过阈值的改写记录;对滤除后的改写记录进行对齐处理,获取对齐后的平行语料。7.如权利要求4所述的方法,其中:所述形近召回包括:从所述汉字替换候选数据库中,确定与所述错误搜索词字形相似的形近字作为纠错候选词;
所述改写召回包括:从所述改写数据库中,确定包含错误搜索词的改写日志,将所述改写日志中的改写输入确...

【专利技术属性】
技术研发人员:张高伟赵德祥崔健宋健任开
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1