信息检索方法、装置及计算机可读存储介质制造方法及图纸

技术编号：32652806 阅读：22 留言：0更新日期：2022-03-17 10:59

本发明专利技术提供了一种信息检索方法、装置及计算机可读存储介质。本发明专利技术提供的信息检索方法，包括：获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；清除所述第一训练数据中的噪声，得到第二训练数据；利用所述第二训练数据初始化信息检索模型；利用所述信息检索模型进行信息检索。本发明专利技术的技术方案能够提高信息检索结果的准确性，提高信息检索的效率。提高信息检索的效率。提高信息检索的效率。

全部详细技术资料下载

【技术实现步骤摘要】
信息检索方法、装置及计算机可读存储介质

[0001]本专利技术涉及信息检索领域，具体涉及一种信息检索方法、装置及计算机可读存储介质。

技术介绍

[0002]信息检索技术是一项重要的技术，广泛应用于搜索引擎，问答系统，推荐系统和其他各种智能服务中。借助更好的信息检索技术，厂商可以准确地了解客户的意图并提供恰当的产品或服务。
[0003]目前，信息检索的主要方法是基于大规模的神经网络模型判断用户查询与文档的语义相关性。训练大规模神经网络模型需要大量的标注数据，但人工标注的成本很高。相关技术提出基于生成的方法来构建训练用的标注数据。但是，生成的数据通常包含一些噪声，且生成的数据中负样本的相关性不足，影响了信息检索的效果。

技术实现思路

[0004]本专利技术实施例要解决的技术问题是提供一种信息检索方法、装置及计算机可读存储介质，能够提高信息检索结果的准确性，提高信息检索的效率。
[0005]根据本专利技术实施例的一个方面，提供了一种信息检索方法，包括：
[0006]获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；
[0007]清除所述第一训练数据中的噪声，得到第二训练数据；
[0008]利用所述第二训练数据初始化信息检索模型；
[0009]利用所述信息检索模型进行信息检索。
[0010]此外，根据本专利技术的至少一个实施例，初始化信息检索模型之后，所述方法还包括：
[0011]通过对抗式查询对所述信息检索模型进行优...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法，其特征在于，包括：获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；清除所述第一训练数据中的噪声，得到第二训练数据；利用所述第二训练数据初始化信息检索模型；利用所述信息检索模型进行信息检索。2.根据权利要求1所述的信息检索方法，其特征在于，初始化信息检索模型之后，所述方法还包括：通过对抗式查询对所述信息检索模型进行优化。3.根据权利要求1所述的信息检索方法，其特征在于，所述获取第一训练数据包括：获取开放数据，所述开放数据包括查询指令和与所述查询指令对应的查询结果；利用所述开放数据训练生成查询数据生成模型，所述查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令；将特定领域的文档输入所述查询数据生成模型，生成所述第一训练数据。4.根据权利要求1所述的信息检索方法，其特征在于，所述清除所述第一训练数据中的噪声包括：利用所述第一训练数据初始化噪声分类模型；对所述噪声分类模型进行训练；利用训练后的噪声分类模型清除所述第一训练数据中的噪声。5.根据权利要求4所述的信息检索方法，其特征在于，所述对所述噪声分类模型进行训练包括：进行N次迭代，得到训练后的噪声分类模型，N为正整数；其中，在每次迭代中，利用所述噪声分类模型清除所述第一训练数据中的噪声，利用清除噪声后的数据训练所述信息检索模型，利用训练后的所述信息检索模型的损失函数更新所述噪声分类模型的参数。6.根据权利要求2所述的信息检索方法，其特征在于，所述通过对抗式查询对所述信息检索模型进行优化包括：利用所述第二训练数据初始化不相关查询生成模型，所述不相关查询生成模型的输入是查询结果和与所述查询结果相关的第一查询指令，输出是与所述查询结果不相关的第二查询指令；将所述信息检索模型的输出结果输入所述不相关查询生成模型，利用所述不相关查询生成模型的输出结果对所述信息检索模型进行训练。7.根据权利要求6所述的信息检索方法，其特征在于，所述不相关查询生成模型的目标函数包括：所述不相关查询生成模型生成的第二查...

【专利技术属性】
技术研发人员：丁磊，童毅轩，董滨，姜珊珊，张永伟，
申请(专利权)人：株式会社理光，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人