搜索方法、模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38664975 阅读:26 留言:0更新日期:2023-09-02 22:46
本公开涉及人工智能技术领域,尤其涉及智能搜索领域,具体涉及搜索方法、模型训练方法、装置、电子设备及存储介质。具体实现方案为:获取目标查询信息,以及与目标查询信息关联的搜索文本;基于目标查询信息和搜索文本进行向量化处理后,进行语义召回得到第一候选集合,并对第一候选集合中的搜索文本排序得到第一搜索结果;基于目标查询信息和搜索文本进行关键词召回得到第二候选集合,对第二候选集合中的搜索文本排序得到第二搜索结果;对第一搜索结果和第二搜索结果进行融合得到第三搜索结果。本公开通过同时使用语义召回和关键词召回,并对语义召回和关键词召回的结果进行融合,提供了语义搜索的能力,并且提高了排序的准确度。并且提高了排序的准确度。并且提高了排序的准确度。

【技术实现步骤摘要】
搜索方法、模型训练方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及智能搜索领域,具体涉及搜索方法、模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]传统的AI(ArtificialIntelligence,人工智能)模型开发成本高、周期长、迭代慢,无法适配企业敏捷创新的业务需求。随着AI技术从高频主流场景到低频长尾场景的渗透,场景碎片化与“手工作坊式”开发的矛盾日益加剧,对AI技术提出了挑战,也限制了AI的产业化进程。
[0003]现有技术中内搜产品所使用的排序模型作为传统AI模型的一种,也存在上述问题。此外,传统的排序模型较为轻量,排序准确度不足够,模型语义泛化能力不强,存在无法提供语义召回,不具备语义搜索能力的痛点。

技术实现思路

[0004]本公开提供了一种搜索方法、模型训练方法、搜索装置、模型训练装置、电子设备及存储介质。
[0005]根据本公开的第一方面,提供了一种搜索方法,包括:
[0006]获取目标查询信息,以及与所述目标查询信息关联的搜索文本;
[0007]基于所述目标查询信息和所述搜索文本进行向量化处理后,进行语义召回得到包括多个所述搜索文本的第一候选集合,并对所述第一候选集合中的多个所述搜索文本进行排序得到第一搜索结果;
[0008]基于所述目标查询信息和所述搜索文本进行关键词召回得到包括多个所述搜索文本的第二候选集合,并对所述第二候选集合中的多个所述搜索文本进行排序得到第二搜索结果;
[0009]对所述第一搜索结果和所述第二搜索结果进行融合得到第三搜索结果。
[0010]根据本公开的第二方面,提供了一种模型训练方法,包括:
[0011]将内搜日志作为训练样本对基础模型进行训练;
[0012]对训练后得到的所述基础模型进行模型蒸馏得到语义搜索模型;所述语义搜索模型应用于如上述技术方案中任意一项所述的搜索方法,用于基于所述目标查询信息和所述搜索文本得到所述第一搜索结果。
[0013]根据本公开的第三方面,提供了一种搜索装置,包括:
[0014]获取模块,被配置为获取目标查询信息,以及与所述目标查询信息关联的搜索文本;
[0015]语义搜索模块,被配置为基于所述目标查询信息和所述搜索文本进行向量化处理后,进行语义召回得到包括多个所述搜索文本的第一候选集合,并对所述第一候选集合中的多个所述搜索文本进行排序得到第一搜索结果;
[0016]关键词搜索模块,被配置为基于所述目标查询信息和所述搜索文本进行关键词召回得到包括多个所述搜索文本的第二候选集合,并对所述第二候选集合中的多个所述搜索文本进行排序得到第二搜索结果;
[0017]融合模块,被配置为对所述第一搜索结果和所述第二搜索结果进行融合得到第三搜索结果。
[0018]根据本公开的第四方面,提供了一种模型训练装置,包括:
[0019]训练模块,被配置为将内搜日志作为训练样本对基础模型进行训练;
[0020]模型蒸馏模块,被配置为对训练后得到的所述基础模型进行模型蒸馏得到语义搜索模型;所述语义搜索模型应用于如上述技术方案中任意一项所述的搜索方法,用于基于所述目标查询信息和所述搜索文本得到所述第一搜索结果。
[0021]根据本公开的第五方面,提供了一种电子设备,包括:
[0022]至少一个处理器;以及
[0023]与所述至少一个处理器通信连接的存储器;其中,
[0024]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述技术方案中任一项所述的搜索方法或模型训练方法。
[0025]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述技术方案中任一项所述的搜索方法或模型训练方法。
[0026]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述技术方案中任一项所述的搜索方法或模型训练方法。
[0027]本公开提供了搜索方法、模型训练方法、搜索装置、模型训练装置、电子设备及存储介质,同时使用语义召回和关键词召回,并对语义召回和关键词召回的结果进行融合,提供了语义搜索的能力,并且提高了排序的准确度。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1是本公开实施例中的搜索方法的步骤示意图;
[0031]图2是本公开实施例中的语义搜索模型召回和排序的流程示意图;
[0032]图3是本公开实施例中的搜索结果融合流程图;
[0033]图4是本公开实施例中的模型训练方法的步骤示意图;
[0034]图5是本公开实施例中的搜索装置的原理框图;
[0035]图6是本公开实施例中的语义搜索模块的原理框图;
[0036]图7是本公开实施例中的关键词搜索模块的原理框图;
[0037]图8是本公开实施例中的融合模块的原理框图;
[0038]图9是本公开实施例中的模型训练模块的原理框图;
[0039]图10是本公开实施例中的示例电子设备的示意性框图。
具体实施方式
[0040]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0041]针对现有技术中缺乏语义搜索能力、排序准确度不足的技术问题,本公开提供了一种搜索方法,如图1所示,包括:
[0042]步骤S101,获取目标查询信息,以及与目标查询信息关联的搜索文本。目标查询信息是指用户的query,query可以包括用户输入的查询词条,还可以包括用户的画像数据,其中,画像数据包括但不限于:姓名、性别、年龄等基础数据;用户的行为数据,例如用户购买、收藏、网站停留时间等行为;购买频率、购买产品价格等交易数据;用户的好友、好友数量等关系数据。基于用户的query在内搜数据库中查询与query相关的搜索文本document(文本,简称doc)。
[0043]步骤S102,基于目标查询信息和搜索文本进行向量化处理后,进行语义召回得到包括多个搜索文本的第一候选集合,并对第一候选集合中的搜索文本排序得到第一搜索结果。本实施例中使用基于基础模型(FoundationModel,又称为大模型)微调得到的语义搜索模型进行语义召回,语义搜索模型包括ERNIE双塔模型和ERNIE排序模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索方法,包括:获取目标查询信息,以及与所述目标查询信息关联的搜索文本;基于所述目标查询信息和所述搜索文本进行向量化处理后,进行语义召回得到包括多个所述搜索文本的第一候选集合,并对所述第一候选集合中的多个所述搜索文本进行排序得到第一搜索结果;基于所述目标查询信息和所述搜索文本进行关键词召回得到包括多个所述搜索文本的第二候选集合,并对所述第二候选集合中的多个所述搜索文本进行排序得到第二搜索结果;对所述第一搜索结果和所述第二搜索结果进行融合得到第三搜索结果。2.根据权利要求1所述的方法,其中,所述基于所述目标查询信息和所述搜索文本进行向量化处理后,进行语义召回得到包括多个所述搜索文本的第一候选集合,并对所述第一候选集合中的多个所述搜索文本进行排序得到第一搜索结果包括:对所述目标查询信息进行向量化处理得到目标查询信息向量,并对所述搜索文本进行向量化处理得到多个搜索文本向量;计算所述目标查询信息向量和每个所述搜索文本向量之间的语义相似度,召回所述语义相似度符合预设条件的所述搜索文本向量对应的所述搜索文本作为所述第一候选集合;基于所述语义相似度、所述目标查询信息的特征以及所述搜索文本的特征对所述第一候选集合中的所述搜索文本进行排序,得到所述第一搜索结果。3.根据权利要求1所述的方法,其中,所述基于所述目标查询信息和所述搜索文本进行关键词召回得到包括多个所述搜索文本的第二候选集合,并对所述第二候选集合中的多个所述搜索文本进行排序得到第二搜索结果包括:基于所述目标查询信息提取关键词;基于所述关键词遍历所述搜索文本,召回所述关键词命中的所述搜索文本作为所述第二候选集合;对所述第二候选集合中的所述搜索文本进行排序得到所述第二搜索结果。4.根据权利要求1

3中任意一项所述的方法,其中,所述对所述第一搜索结果和所述第二搜索结果进行融合得到第三搜索结果包括:基于预设的过滤规则对所述第一搜索结果进行过滤处理;对所述过滤处理后的所述第一搜索结果和所述第二搜索结果进行内容去重处理;基于所述内容去重处理后的所述第一搜索结果和所述第二搜索结果得到所述第三搜索结果。5.根据权利要求4所述的方法,其中,所述预设的过滤规则包括以下至少一项:基于预设模型阈值对置信度低于所述预设模型阈值的所述第一搜索结果进行过滤;判断所述目标查询信息的类别,对所述类别为非语义场景的所述目标查询信息对应的所述第一搜索结果进行过滤;基于所述第一搜索结果的时效性进行过滤。6.一种模型训练方法,包括:将内搜日志作为训练样本对基础模型进行训练;对训练后得到的所述基础模型进行模型蒸馏得到语义搜索模型;所述语义搜索模型应
用于如权利要求1

5中任意一项所述的搜索方法,用于基于所述目标查询信息和所述搜索文本得到所述第一搜索结果。7.一种搜索装置,包括:获取模块,被配置为获取目标查询信息,以及与所述目标查询信息关联的搜索文本;语义搜索模块,被配置为基于所述目标查询信息和所述搜索文本进行向量化处理后,进行语义召回得到包括多个所述搜索文本的第一候选集合,并对所述第一候选集合中的多个所述搜索文本进行排序得到第...

【专利技术属性】
技术研发人员:何欣燃潘秋桐何伯磊安叶嵩
申请(专利权)人:百度中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1