信息搜索方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38144885 阅读:10 留言:0更新日期:2023-07-08 10:02
本公开提供了一种信息搜索方法,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理技术领域。具体实现方案为:分别生成搜索词的文本特征以及信息库中的候选信息的文本特征;响应于确定搜索词和候选信息包含相同的目标专名词,生成目标专名词的文本特征;根据搜索词的文本特征、候选信息的文本特征和目标专名词的文本特征,生成搜索词的融合特征以及候选信息的融合特征;根据搜索词的融合特征以及候选信息的融合特征,确定搜索词与候选信息之间的相似度;以及根据相似度,确定针对搜索词的信息搜索结果。本公开还提供了一种信息搜索装置、电子设备和存储介质。电子设备和存储介质。电子设备和存储介质。

【技术实现步骤摘要】
信息搜索方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、自然语言处理
更具体地,本公开提供了一种信息搜索方法、装置、电子设备和存储介质。

技术介绍

[0002]信息搜索(或信息检索、信息查询)是自然语言处理领域的一个重要分支。信息搜索任务是给定一个搜索词Query(或检索词、查询词),从候选信息库中召回与Query最相关的信息结果。

技术实现思路

[0003]本公开提供了一种信息搜索方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种信息搜索方法,该方法包括:分别生成搜索词的文本特征以及信息库中的候选信息的文本特征;响应于确定搜索词和候选信息包含相同的目标专名词,生成目标专名词的文本特征;根据搜索词的文本特征、候选信息的文本特征和目标专名词的文本特征,生成搜索词的融合特征以及候选信息的融合特征;根据搜索词的融合特征以及候选信息的融合特征,确定搜索词与候选信息之间的相似度;以及根据相似度,确定针对搜索词的信息搜索结果。
[0005]根据第二方面,提供了一种信息搜索装置,该装置包括:第一生成模块,用于分别生成搜索词的文本特征以及信息库中的候选信息的文本特征;第二生成模块,用于响应于确定搜索词和候选信息包含相同的目标专名词,生成目标专名词的文本特征;第三生成模块,用于根据搜索词的文本特征、候选信息的文本特征和目标专名词的文本特征,生成搜索词的融合特征以及候选信息的融合特征;第一确定模块,用于根据搜索词的融合特征以及候选信息的融合特征,确定搜索词与候选信息之间的相似度;以及第二确定模块,用于根据相似度,确定针对搜索词的信息搜索结果。
[0006]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0007]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0008]根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是相关技术中双塔模型的示意图;
[0012]图2是根据本公开的一个实施例的信息搜索方法的流程图;
[0013]图3是根据本公开的一个实施例的确定目标专名词的方法的示意图;
[0014]图4是根据本公开的一个实施例的双塔模型的示意图;
[0015]图5是根据本公开的一个实施例的信息搜索装置的框图;
[0016]图6是根据本公开的一个实施例的信息搜索方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]信息搜索任务一般借助排序模型,计算搜索词Query与多个候选信息之间的相似度,按照相似度由大到小的顺序对多个候选信息进行排序,得到多个候选信息的排序结果,作为信息搜索结果。
[0019]一般地,排序越靠前的搜索结果与搜索词Query的相关性越高。然而,在一些特殊业务场景的搜索排序任务中,存在特定的专有名词(以下简称为专名词),而排序模型对这些专名词不敏感,导致包含该专名词的搜索结果排位靠后,排序结果不准确,用户体验不佳。
[0020]例如,针对一些企业用户,各企业用户都会有自己常见的专有词,而这些专有词在不同用户之间是不通用的。在企业用户的私有领域部署排序模型时,会导致排序模型对于这些特殊专有词的识别能力较差。
[0021]例如,针对某银行用户,“XXX电子消费券”中的“XXX”属于该用户的专名词,然而排序模型可能认不出“XXX”是一个词。针对某餐饮用户,“ABC”属于该用户的专名词,然而排序模型可能把它当成“A”“B”“C”三个独立的字。上述这些情况都会导致搜索结果不正确。
[0022]为了保证用户体验,需要将这类错误进行修正。目前有以下几种方法。
[0023]一种是在排序模型后面加入人工的干预策略,例如人工设置规则,使得排序结果中包含专有词的搜索结果重排到第一位。但这种方法只能解决单个案例,类似的问题换一个表述可能还是会有问题,通用性较差。
[0024]另一种方法是将排序模型在更好的数据集上重新训练。但对每个用户都重训练模型的时间成本和人力成本都比较高,在经济上不太划算。
[0025]因此,目前对于上述情况的解决方法,干预成本高,并且加入干预无法即时生效,干预生效需要重训模型或者重训部署规则,需要比较久的开发迭代时间,时间久,费人力。此外,无论是重训模型还加规则,影响范围比较难控制,很可能影响到本来不需要干预的搜索结果,产生不可预料的副作用。
[0026]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0027]在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0028]信息搜索任务中的排序模型可以是双塔模型。双塔模型包括左塔和右塔,左塔和右塔分别包括针对搜索词Query的第一自然语言处理模型和针对候选信息的第二自然语言处理模型。第一自然语言处理模型和第二自然语言处理模型可以均为ERNIE(Enhanced language Representation with Informative Entities)模型。
[0029]候选信息可以来自候选信息库,候选信息库包括多个候选信息,候选信息具体可以是一些新闻、资源、事件等内容的标题。因此候选信息也可以称为候选Title。
[0030]图1是相关技术中双塔模型的示意图。
[0031]如图1所示,搜索词Query输入第一自然语言处理模型110,得到搜索词Query的文本特征111。候选Title输入第二自然语言处理模型120,得到候选Title的文本特征121。
[0032]通过计算文本特征111和文本特征121之间的相似度,对搜索词Query与候选Title进行匹配。文本特征111和文本特征121之间的相似度可以作为搜索词Query与候选Title之间的相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息搜索方法,包括:分别生成搜索词的文本特征以及信息库中的候选信息的文本特征;响应于确定所述搜索词和所述候选信息包含相同的目标专名词,生成所述目标专名词的文本特征;根据所述搜索词的文本特征、候选信息的文本特征和目标专名词的文本特征,生成所述搜索词的融合特征以及所述候选信息的融合特征;根据所述搜索词的融合特征以及所述候选信息的融合特征,确定所述搜索词与所述候选信息之间的相似度;以及根据所述相似度,确定针对所述搜索词的信息搜索结果。2.根据权利要求1所述的方法,还包括:将所述搜索词与专名词库进行匹配,得到所述专名词库中被所述搜索词命中的第一专名词集合;将所述候选信息与所述专名词库进行匹配,得到所述专名词库中被所述候选信息命中的第二专名词集合;响应于所述第一专名词集合和所述第二专名词集合具有交集,将所述交集中的专名词确定为所述目标专名词。3.根据权利要求2所述的方法,其中,所述专名词库中的专名词是针对目标业务需求进行构建得到的;还包括:响应于所述目标业务需求的变更,更新所述专名词库。4.根据权利要求1所述的方法,其中,所述根据所述搜索词的文本特征、候选信息的文本特征和目标专名词的文本特征,生成所述搜索词的融合特征以及所述候选信息的融合特征包括:对所述搜索词的文本特征和所述目标专名词的文本特征进行加权处理,得到所述搜索词的融合特征;对所述候选信息的文本特征和所述目标专名词的文本特征进行加权处理,得到所述候选信息的融合特征。5.根据权利要求1所述的方法,还包括:响应于所述搜索词和所述候选信息不包含相同的目标专名词,根据所述搜索词的文本特征以及所述候选信息的文本特征,确定所述搜索词和所述候选信息之间的相似度。6.根据权利要求1所述的方法,其中,所述信息库包括多个候选信息;所述根据所述相似度,确定针对所述搜索词的信息搜索结果包括:根据所述搜索词分别与每个候选信息之间的相似度,对所述多个候选信息进行排序;根据排序结果生成信息推荐列表,作为所述信息搜索结果;以及输出所述信息搜索结果。7.一种信息搜索装置,包括:第一生成模块,用于分别生成搜索词的文本特征以及信息库中的候选信息的文本特征;第二生成模块,用于响应于确定所述搜索词和所述候选信息包含相同的目标专名词,生成所述目标专名词的文本特征;
第三生成模块,用于根据所述搜索词的文本特征、候选信息的文本特征和目标专名词的文本特征,生成所述搜索词的融合特征以及所述候选信息的...

【专利技术属性】
技术研发人员:戴松泰姜文斌孙卓崔骁鹏吕雅娟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1