【技术实现步骤摘要】
一种文本相关性确定方法、装置、设备及存储介质
[0001]本公开实施例涉及数据处理技术,尤其涉及一种文本相关性确定方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]为了衡量搜索请求与候选文档的文本相关性,通常需要确定搜索请求与候选文档的文本匹配度和意图匹配度
。
[0003]由于文档包含多种文本域,需要根据文档的不同域与搜索请求的匹配情况给出相关性分数的打分规则,并以打分规则为标注数据来训练语言模型
。
然而,随着文本域的种类增加以及搜索请求包括的域特征增加,模型训练阶段难以穷举所有匹配情况的打分规则作为标注数据,存在因标注数据有限导致语言模型难以准确学习到打分规则的情况,使语言模型无法给出搜索请求与文档的合理的相关性分数
。
技术实现思路
[0004]本公开实施例提供一种文本相关性确定方法
、
装置
、
设备及存储介质,可以改善语言模型无法给出搜索请求与文档的合理的相关性分数的问题r/>。
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种文本相关性确定方法,其特征在于,包括:根据候选文档对应的特征集合中的每一个组合特征确定模型输入特征,其中,所述特征集合包括搜索请求关于文本内容的第一特征与候选文档关于文本内容的第二特征组合成的第一组合特征,以及,所述搜索请求关于搜索意图的第三特征与候选文档关于体裁的第四特征组合成的第二组合特征;将所述每一个组合特征对应的模型输入特征分别输入预训练的语言模型,获取所述语言模型针对每一个组合特征对应的模型输入特征输出的交互特征,其中,所述交互特征表征每一个组合特征包括的两个特征之间相关性的特征;根据所述每一个组合特征对应的交互特征与域特征确定融合特征,根据所述融合特征确定搜索请求与所述候选文档的文本相关性,其中,所述域特征表征每一个所述交互特征对应的文本域
。2.
根据权利要求1所述的方法,其特征在于,在根据候选文档对应的特征集合中的每一个组合特征确定模型输入特征之前,还包括:对于每一个候选文档,将所述搜索请求对应的搜索文本分别与所述候选文档的标题
、
摘要
、
作者或角色进行组合,得到第一组合特征;将所述搜索请求的搜索意图与所述候选文档的体裁进行组合,得到第二组合特征;根据所述候选文档的所述第一组合特征和第二组合特征,确定所述候选文档对应的特征集合
。3.
根据权利要求2所述的方法,其特征在于,所述根据候选文档对应的特征集合中的每一个组合特征确定模型输入特征,包括:对于每一个候选文档,获取所述候选文档对应的特征集合中所述标题
、
摘要
、
作者或角色对应的第一组合特征;获取所述候选文档对应的特征集合中所述体裁对应的第二组合特征;分别将位置特征叠加至每一个第一组合特征或第二组合特征,得到所述模型输入特征,其中,所述位置特征表征每一个组合特征对应的位置嵌入
。4.
根据权利要求3所述的方法,其特征在于,所述获取所述语言模型针对每一个组合特征对应的模型输入特征输出的交互特征,包括:对于标题对应的第一组合特征,获取所述语言模型针对所述标题对应的第一组合特征输出所述标题对应的交互特征;或者,对于摘要对应的第一组合特征,获取所述语言模型针对所述摘要对应的第一组合特征输出所述摘要对应的交互特征;或者,对于作者对应的第一组合特征,获取所述语言模型针对所述作者对应的第一组合特征输出所述作者对应的交互特征;或者,对于角色对应的第一组合特征,获取所述语言模型针对所述角色对应的第一组合特征输出所述角色对应的交互特征;或者,对于体裁对应的第二组合特征...
【专利技术属性】
技术研发人员:王文祥,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。