【技术实现步骤摘要】
信息检索方法、装置、设备及介质
本专利技术涉及人工智能
,尤其涉及一种信息检索方法、装置、设备及介质。
技术介绍
信息检索领域中,在基于机器学习排序模型(LearningtoRank,LTR)来解决文档排序问题时,主要依赖复杂的手工特征构建过程。针对上述问题,目前搜索、推荐和广告算法等相关业务中都开始引入BERT模型来实现排序任务,将问题和文档的表示映射到向量空间中,通过神经网络来计算相似度,从而避免了复杂的手工特征构建过程。然而,原生态的BERT模型本身对句子的表征能力不强,并且,在计算文本语义相似度时,原生态BERT需要输入两个句子,导致句对回归计算开销大,同时,采用单独学习排序特征的方式,排序效果也有待提高。
技术实现思路
鉴于以上内容,有必要提供一种信息检索方法、装置、设备及介质,能够基于Pointwise和Pairwise相结合的LTR排序模型,并使用BERT深度学习和三元组TripleLoss损失函数等对召回结果做更精细化的排序,通过计算查询问题与召回的所有文档之间的相关 ...
【技术保护点】
1.一种信息检索方法,其特征在于,所述信息检索方法包括:/n响应于信息检索指令,根据所述信息检索指令获取训练数据;/n从所述训练数据中识别问题数据及文档数据,并对所述问题数据及所述文档数据进行拼接处理,得到样本序列;/n调用初始网络,并根据所述样本序列对所述初始网络进行预训练,得到中间模型;/n计算所述文档数据与所述问题数据间的相似度,根据所述文档数据与所述问题数据间的相似度将所述文档数据拆分为正样本及负样本;/n根据所述问题数据、所述正样本及所述负样本构建三元组;/n构建目标损失函数;/n根据所述三元组及所述目标损失函数训练所述中间模型,得到目标模型;/n当接收到待查询问 ...
【技术特征摘要】
1.一种信息检索方法,其特征在于,所述信息检索方法包括:
响应于信息检索指令,根据所述信息检索指令获取训练数据;
从所述训练数据中识别问题数据及文档数据,并对所述问题数据及所述文档数据进行拼接处理,得到样本序列;
调用初始网络,并根据所述样本序列对所述初始网络进行预训练,得到中间模型;
计算所述文档数据与所述问题数据间的相似度,根据所述文档数据与所述问题数据间的相似度将所述文档数据拆分为正样本及负样本;
根据所述问题数据、所述正样本及所述负样本构建三元组;
构建目标损失函数;
根据所述三元组及所述目标损失函数训练所述中间模型,得到目标模型;
当接收到待查询问题及对应的至少一个查询文档时,将所述待查询问题及所述至少一个查询文档输入至所述目标模型,得到所述至少一个查询文档的排序结果,并将所述排序结果确定为所述待查询问题的查询结果。
2.如权利要求1所述的信息检索方法,其特征在于,所述根据所述信息检索指令获取训练数据包括:
解析所述信息检索指令的方法体,得到所述信息检索指令所携带的信息;
获取与领域对应的预设标签;
根据所述预设标签构建正则表达式;
利用所述正则表达式在所述信息检索指令所携带的信息中进行遍历,并将遍历到的数据确定为目标领域;
连接配置数据库,并从所述配置数据库中搜索与所述目标领域对应的数据作为所述训练数据。
3.如权利要求1所述的信息检索方法,其特征在于,采用下述公式对所述问题数据及所述文档数据进行拼接处理,得到样本序列:
Xi=[<CLS>,Qm,<SEP>,Dj,<SEP>]
其中,Xi表示第i个样本序列;<CLS>及<SEP>为标志,<CLS>用于标记首句句首,<SEP>用于分开两个句子,并标记尾句句尾;Qm表示第m个问题数据,Dj表示对应于Qm的第j个文档数据;i、m、j为正整数。
4.如权利要求1所述的信息检索方法,其特征在于,所述根据所述样本序列对所述初始网络进行预训练,得到中间模型包括:
将所述样本序列输入至所述初始网络的Bert层进行Embedding编码,得到嵌入向量;
将所述嵌入向量输入至所述初始网络的Pooling层进行池化处理,得到池化特征;
将所述池化特征输入至所述初始网络的Softmax层,得到输出值;
根据所述输出值,采用交叉熵损失函数优化所述初始网络,直至所述交叉熵损失函数的取值不再降低,停止训练,得到所述中间模型。
5.如权利要求3所...
【专利技术属性】
技术研发人员:严为绒,乔建秀,刘元震,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。