信息搜索方法、装置、设备及存储介质制造方法及图纸

技术编号:24757346 阅读:22 留言:0更新日期:2020-07-04 09:25
本申请公开了一种信息搜索方法、装置、设备及存储介质,属于自然语言处理技术领域。本申请通过将聚焦损失函数引入至改写模型,应用基于聚焦损失函数的改写模型进行信息搜索。由于聚焦损失函数的内部通过调制因子进行了加权,使得改写模型侧重于优化难样本带来的损失,改写模型会选择难样本优先学习,从而解决了难易样本的不平衡问题。由于改写模型的效果得到了提升,那么通过改写模型找到的候选查询信息作为改写查询信息会更加合适,能够准确的纠正原始查询信息包含的错误,使用通过改写模型找到的该候选查询信息进行搜索时,能够有效提高搜索结果的准确性。

Information search method, device, equipment and storage medium

【技术实现步骤摘要】
信息搜索方法、装置、设备及存储介质
本申请涉及自然语言处理
,特别涉及一种信息搜索方法、装置、设备及存储介质。
技术介绍
在搜索引擎中通过应用查询(Query)改写技术,能够有效地提高搜索引擎的准确性。具体地,当用户使用搜索引擎时,可能会因为认知或者打字失误,导致输入的原始查询信息包含错误甚至词不达意,此时需要找到与原始查询信息语义相近的候选查询信息,通过候选查询信息来进行搜索,从而保证搜索结果的正确性。时下,通过改写模型来进行信息搜索已成为一个热门的研究方向。具体地,在训练阶段,基于交叉熵损失函数对样本集训练,得出改写模型。在预测阶段,根据用户在搜索引擎中输入的原始查询信息,挖掘出若干候选查询信息,将原始查询信息和挖掘出的候选查询信息输入到改写模型中,通过改写模型对原始查询信息和候选查询信息进行处理,输出预测值。如果某个候选查询信息的概率在若干个候选查询信息中预测值最大,则将该候选查询信息确定为原始查询信息的改写查询信息,根据该候选查询信息进行搜索。样本集中不同样本的改写难度通常存在极大的不均衡,即,样本集中易样本占比很大,而难样本占比很小。采用上述方法时,由于难易样本的不平衡,在基于样本集训练模型的过程中,模型往往在易样本上过拟合,导致模型不能有效地利用难样本学习,造成模型为原始查询信息确定出的改写查询信息的准确性不高,进而影响了搜索结果的准确性。
技术实现思路
本申请实施例提供了一种信息搜索方法、装置、设备及存储介质,能够提高搜索结果的准确性。所述技术方案如下:一方面,提供了一种信息搜索方法,所述方法包括:根据原始查询信息,获取所述原始查询信息匹配的至少一个候选查询信息;将所述原始查询信息以及所述至少一个候选查询信息输入改写模型,所述改写模型基于聚焦损失函数对样本集训练得到,所述聚焦损失函数包括第一损失函数和用于对所述第一损失函数加权的调制因子,所述调制因子的取值与所述样本集中样本的改写难度正相关;通过所述改写模型对所述原始查询信息与所述至少一个候选查询信息进行处理,输出所述至少一个候选查询信息的预测值,所述预测值用于指示对应候选查询信息是所述原始查询信息的改写查询信息的概率;根据所述至少一个候选查询信息中预测值满足第一条件的候选查询信息进行搜索。另一方面,提供了一种信息搜索装置,所述装置包括:获取模块,用于根据原始查询信息,获取所述原始查询信息匹配的至少一个候选查询信息;输入模块,用于将所述原始查询信息以及所述至少一个候选查询信息输入改写模型,所述改写模型基于聚焦损失函数对样本集训练得到,所述聚焦损失函数包括第一损失函数和用于对所述第一损失函数加权的调制因子,所述调制因子的取值与所述样本集中样本的改写难度正相关;处理模块,用于通过所述改写模型对所述原始查询信息与所述至少一个候选查询信息进行处理,输出所述至少一个候选查询信息的预测值,所述预测值用于指示对应候选查询信息是所述原始查询信息的改写查询信息的概率;搜索模块,用于根据所述至少一个候选查询信息中预测值满足第一条件的候选查询信息进行搜索。可选地,所述调制因子包括聚焦参数,所述聚焦参数用于调整所述样本集中易样本的权重降低速率,所述易样本的改写难度满足第二条件。可选地,所述聚焦参数为所述调制因子的指数部分。可选地,所述调制因子包括指示函数,所述指示函数的取值用于指示所述样本的预测值与所述样本的标签之间的偏差。可选地,所述指示函数为所述调制因子的底数部分。可选地,所述聚焦损失函数还包括用于对所述第一损失函数加权的平衡因子,所述平衡因子对所述样本集中正样本的取值与对所述样本集中负样本的取值不同,所述正样本包括的样本候选查询信息是对应样本原始查询信息的改写查询信息,所述负样本包括的样本候选查询信息不是对应样本原始查询信息的改写查询信息。可选地,所述聚焦损失函数为所述调制因子、所述平衡因子和所述第一损失函数的乘积。可选地,所述改写模型包括神经网络和所述神经网络的输出层连接的所述聚焦损失函数,所述处理模块,用于通过所述神经网络对所述原始查询信息进行特征提取,得到所述原始查询信息的第一语义表示向量;通过所述神经网络对所述至少一个候选查询信息分别进行特征提取,得到所述至少一个候选查询信息的第二语义表示向量;通过所述聚焦损失函数对所述第一语义表示向量和所述至少一个候选查询信息的第二语义表示向量分别进行运算,得到所述至少一个候选查询信息的预测值。另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现上述信息搜索方法所执行的操作。另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述信息搜索方法所执行的操作。本申请实施例提供的技术方案带来的有益效果至少包括:本申请实施例提供的方法及装置,通过将聚焦损失函数引入至改写模型,应用基于聚焦损失函数的改写模型进行信息搜索。由于聚焦损失函数的内部通过调制因子进行了加权,改写难度小的易样本的调制因子的取值大,改写难度大的难样本的调制因子取值小,使得易样本的权重相对降低,难样本的权重相对增加,因此改写模型侧重于优化难样本带来的损失,因此改写模型会选择难样本优先学习,从而解决了难易样本的不平衡问题。由于改写模型能有效地利用难样本学习,改写模型的效果得到了提升,那么通过改写模型找到的候选查询信息作为改写查询信息会更加合适,能够准确的纠正原始查询信息包含的错误。因此使用通过改写模型找到的该候选查询信息进行搜索时,能够有效提高搜索结果的准确性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种信息搜索方法的实施环境的示意图;图2是本申请实施例提供的一种改写模型的训练方法的流程图;图3是本申请实施例提供的一种Query改写的原理示意图;图4是本申请实施例提供的一种改写模型的结构示意图;图5是本申请实施例提供的一种聚焦损失函数的示意图;图6是本申请实施例提供的一种信息搜索方法的流程图;图7是本申请实施例提供的一种在即时通信应用中进行信息搜索的方法的流程图;图8是本申请实施例提供的一种信息搜索装置的结构示意图;图9是本申请实施例提供的一种终端的结构示意图;图10是本申请实施例提供的一种服务器的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。本申请中术语“第一”“第二”本文档来自技高网...

【技术保护点】
1.一种信息搜索方法,其特征在于,所述方法包括:/n根据原始查询信息,获取所述原始查询信息匹配的至少一个候选查询信息;/n将所述原始查询信息以及所述至少一个候选查询信息输入改写模型,所述改写模型基于聚焦损失函数对样本集训练得到,所述聚焦损失函数包括第一损失函数和用于对所述第一损失函数加权的调制因子,所述调制因子的取值与所述样本集中样本的改写难度正相关;/n通过所述改写模型对所述原始查询信息与所述至少一个候选查询信息进行处理,输出所述至少一个候选查询信息的预测值,所述预测值用于指示对应候选查询信息是所述原始查询信息的改写查询信息的概率;/n根据所述至少一个候选查询信息中预测值满足第一条件的候选查询信息进行搜索。/n

【技术特征摘要】
1.一种信息搜索方法,其特征在于,所述方法包括:
根据原始查询信息,获取所述原始查询信息匹配的至少一个候选查询信息;
将所述原始查询信息以及所述至少一个候选查询信息输入改写模型,所述改写模型基于聚焦损失函数对样本集训练得到,所述聚焦损失函数包括第一损失函数和用于对所述第一损失函数加权的调制因子,所述调制因子的取值与所述样本集中样本的改写难度正相关;
通过所述改写模型对所述原始查询信息与所述至少一个候选查询信息进行处理,输出所述至少一个候选查询信息的预测值,所述预测值用于指示对应候选查询信息是所述原始查询信息的改写查询信息的概率;
根据所述至少一个候选查询信息中预测值满足第一条件的候选查询信息进行搜索。


2.根据权利要求1所述的方法,其特征在于,所述调制因子包括聚焦参数,所述聚焦参数用于调整所述样本集中易样本的权重降低速率,所述易样本的改写难度满足第二条件。


3.根据权利要求2所述的方法,其特征在于,所述聚焦参数为所述调制因子的指数部分。


4.根据权利要求1所述的方法,其特征在于,所述调制因子包括指示函数,所述指示函数的取值用于指示所述样本的预测值与所述样本的标签之间的偏差。


5.根据权利要求4所述的方法,其特征在于,所述指示函数为所述调制因子的底数部分。


6.根据权利要求1所述的方法,其特征在于,所述聚焦损失函数还包括用于对所述第一损失函数加权的平衡因子,所述平衡因子对所述样本集中正样本的取值与对所述样本集中负样本的取值不同,所述正样本包括的样本候选查询信息是对应样本原始查询信息的改写查询信息,所述负样本包括的样本候选查询信息不是对应样本原始查询信息的改写查询信息。


7.根据权利要求6所述的方法,其特征在于,所述聚焦损失函数为所述调制因子、所述平衡因子和所述第一损失函数的乘积。


8.根据权利要求1所述的方法,其特征在于,所述改写模...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1