信息搜索方法、装置、设备及存储介质制造方法及图纸

技术编号：24757346 阅读：22 留言：0更新日期：2020-07-04 09:25

本申请公开了一种信息搜索方法、装置、设备及存储介质，属于自然语言处理技术领域。本申请通过将聚焦损失函数引入至改写模型，应用基于聚焦损失函数的改写模型进行信息搜索。由于聚焦损失函数的内部通过调制因子进行了加权，使得改写模型侧重于优化难样本带来的损失，改写模型会选择难样本优先学习，从而解决了难易样本的不平衡问题。由于改写模型的效果得到了提升，那么通过改写模型找到的候选查询信息作为改写查询信息会更加合适，能够准确的纠正原始查询信息包含的错误，使用通过改写模型找到的该候选查询信息进行搜索时，能够有效提高搜索结果的准确性。

Information search method, device, equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
信息搜索方法、装置、设备及存储介质
本申请涉及自然语言处理
，特别涉及一种信息搜索方法、装置、设备及存储介质。
技术介绍
在搜索引擎中通过应用查询(Query)改写技术，能够有效地提高搜索引擎的准确性。具体地，当用户使用搜索引擎时，可能会因为认知或者打字失误，导致输入的原始查询信息包含错误甚至词不达意，此时需要找到与原始查询信息语义相近的候选查询信息，通过候选查询信息来进行搜索，从而保证搜索结果的正确性。时下，通过改写模型来进行信息搜索已成为一个热门的研究方向。具体地，在训练阶段，基于交叉熵损失函数对样本集训练，得出改写模型。在预测阶段，根据用户在搜索引擎中输入的原始查询信息，挖掘出若干候选查询信息，将原始查询信息和挖掘出的候选查询信息输入到改写模型中，通过改写模型对原始查询信息和候选查询信息进行处理，输出预测值。如果某个候选查询信息的概率在若干个候选查询信息中预测值最大，则将该候选查询信息确定为原始查询信息的改写查询信息，根据该候选查询信息进行搜索。样本集中不同样本的改写难度通常存在极大的不均衡，即，样本集中易样本占比很大，而难样本占比很小。采用上述方法时，由于难易样本的不平衡，在基于样本集训练模型的过程中，模型往往在易样本上过拟合，导致模型不能有效地利用难样本学习，造成模型为原始查询信息确定出的改写查询信息的准确性不高，进而影响了搜索结果的准确性。
技术实现思路
本申请实施例提供了一种信息搜索方法、装置、设备及存储介质，能够提高搜索结果的准确性。所述技术方案如下：...

【技术保护点】
1.一种信息搜索方法，其特征在于，所述方法包括：/n根据原始查询信息，获取所述原始查询信息匹配的至少一个候选查询信息；/n将所述原始查询信息以及所述至少一个候选查询信息输入改写模型，所述改写模型基于聚焦损失函数对样本集训练得到，所述聚焦损失函数包括第一损失函数和用于对所述第一损失函数加权的调制因子，所述调制因子的取值与所述样本集中样本的改写难度正相关；/n通过所述改写模型对所述原始查询信息与所述至少一个候选查询信息进行处理，输出所述至少一个候选查询信息的预测值，所述预测值用于指示对应候选查询信息是所述原始查询信息的改写查询信息的概率；/n根据所述至少一个候选查询信息中预测值满足第一条件的候选查询信息进行搜索。/n

【技术特征摘要】
1.一种信息搜索方法，其特征在于，所述方法包括：
根据原始查询信息，获取所述原始查询信息匹配的至少一个候选查询信息；
将所述原始查询信息以及所述至少一个候选查询信息输入改写模型，所述改写模型基于聚焦损失函数对样本集训练得到，所述聚焦损失函数包括第一损失函数和用于对所述第一损失函数加权的调制因子，所述调制因子的取值与所述样本集中样本的改写难度正相关；
通过所述改写模型对所述原始查询信息与所述至少一个候选查询信息进行处理，输出所述至少一个候选查询信息的预测值，所述预测值用于指示对应候选查询信息是所述原始查询信息的改写查询信息的概率；
根据所述至少一个候选查询信息中预测值满足第一条件的候选查询信息进行搜索。

2.根据权利要求1所述的方法，其特征在于，所述调制因子包括聚焦参数，所述聚焦参数用于调整所述样本集中易样本的权重降低速率，所述易样本的改写难度满足第二条件。

3.根据权利要求2所述的方法，其特征在于，所述聚焦参数为所述调制因子的指数部分。

4.根据权利要求1所述的方法，其特征在于，所述调制因子包括指示函数，所述指示函数的取值用于指示所述样本的预测值与所述样本的标签之间的偏差。

5.根据权利要求4所述的方法，其特征在于，所述指示函数为所述调制因子的底数部分。

6.根据权利要求1所述的方法，其特征在于，所述聚焦损失函数还包括用于对所述第一损失函数加权的平衡因子，所述平衡因子对所述样本集中正样本的取值与对所述样本集中负样本的取值不同，所述正样本包括的样本候选查询信息是对应样本原始查询信息的改写查询信息，所述负样本包括的样本候选查询信息不是对应样本原始查询信息的改写查询信息。

7.根据权利要求6所述的方法，其特征在于，所述聚焦损失函数为所述调制因子、所述平衡因子和所述第一损失函数的乘积。

8.根据权利要求1所述的方法，其特征在于，所述改写模...

【专利技术属性】
技术研发人员：康战辉，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人