【技术实现步骤摘要】
搜索文本处理方法、装置、电子设备及介质
[0001]本申请涉及计算机处理
,特别是涉及一种搜索文本处理方法、装置、电子设备及介质。
技术介绍
[0002]随着网络技术的普及,各种网络平台应运而生,不同的网络平台为用户提供不同的服务。其中,为了方便用户使用网络平台,网络平台一般会为用户提供查询服务,以便用户高效获取到自己所需求的信息。
[0003]相关技术中,为了能准确响应用户的查询意图,在接收到用户发送的搜索文本后,网络平台会对搜索文本进行纠错处理,这一过程称为查询纠错。具体而言,查询纠错是指对用户搜索的搜索文本中的部分文本片段或全部文本进行纠错,进而搜索到更符合用户真实意图的搜索结果。例如,将用户输入的搜索文本“酉游记”纠错为“西游记”,或者,将用户输入的搜索文本“云南大理骊江”中的“骊江”纠错为“丽江”,其中,“骊江”即为需要纠错的文本片段。
[0004]相关技术中的查询纠错所采用的方式一般是召回排序的方法,该方法的主要过程是:对需要纠错的文本片段召回一些文本,然后利用语言模型对召回的文本进行打分排 ...
【技术保护点】
【技术特征摘要】
1.一种搜索文本处理方法,其特征在于,所述方法包括:从待处理的搜索文本中确定当前待纠错的纠错文本片段;基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本;分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。2.根据权利要求1所述的方法,其特征在于,分别基于所述多个待召回文本,对目标索引库的搜索对象进行检索,包括:基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,其中,所述多种不同粒度至少包括片段文本检索粒度和完整文本检索粒度;根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。3.根据权利要求2所述的方法,其特征在于,基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,包括:分别以所述多个待召回文本为检索文本,对所述目标索引库的搜索对象进行检索,得到检索到搜索对象的至少一个候选召回文本;将所述搜索文本中的所述纠错文本片段分别替换为所述至少一个候选召回文本,得到与所述至少一个候选召回文本各自对应的候选搜索文本;以所述候选搜索文本为检索文本,对所述目标索引库的搜索对象进行检索;根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:根据各所述候选搜索文本各自对应的检索结果,从所述至少一个候选召回文本中确定所述目标文本。4.根据权利要求2或3所述的方法,其特征在于,根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:在所述完整文本检索粒度下,获取各候选搜索文本命中的索引记录所对应的目标搜索对象;其中,候选搜索文本是以待召回文本对所述搜索文本进行纠错处理得到;基于各所述候选搜索文本和对应的目标搜索对象,确定各所述候选搜索文本各自对应的多维度特征;其中,每个候选搜索文本的多维度特征包括候选搜索文本与目标搜索对象的名称之间的相似度特征、目标搜索对象的属性特征、候选召回文本的上下文语言特征;基于各所述候选搜索文本各自对应的多维度特征,从各所述候选搜索文本对应的候选召回文本中筛选出所述目标文本。5.根据权利要求4所述的方法,其特征在于,在所述纠错文本片段为多个的情况下,所
述方法还包括:在确定筛选出的所述目标文本的相似度特征大于或等于相似度阈值时,将所述搜索文本中所述当前待纠错的纠错文本片段替换为所述目标文本,得到纠错后搜索文本;在确定筛选出的所述目标文本的相似度特征小于相似度阈值时,确定下一纠错文本片段对应的目标文本,直到遍历完所有的纠错文本片段,并将搜索文本中所述多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。6.根据权利要求...
【专利技术属性】
技术研发人员:钱昉,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。