内容召回方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：33307723 阅读：16 留言：0更新日期：2022-05-06 12:18

本发明专利技术公开了一种内容召回方法、装置、计算机设备及存储介质，应用于人工智能技术领域，用于提高获取召回内容的准确性。本发明专利技术提供的方法包括：获取目标语料，并将所述目标语料输入到预设的句向量表征模型中，得到所述目标语料的语料表征向量；获取预设的召回候选集，并基于语义识别方式，对所述目标语料和召回候选集进行语义识别，得到语义识别结果，并基于所述语义识别结果，得到候选语料集，并生成候选语料集的候选语料向量，并计算每个所述候选语料向量和所述语料表征向量的向量相似度，得到向量相似度值；将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合，得到所述目标语料对应的召回内容。到所述目标语料对应的召回内容。到所述目标语料对应的召回内容。

全部详细技术资料下载

【技术实现步骤摘要】
内容召回方法、装置、计算机设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种内容召回方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前，语义召回技术被广泛应用在基于人工智能的问答系统或者智能推荐场景中，通过目标语句的句向量与召回内容的相似度，为用户匹配对应的回答或者向用户推荐内容。
[0003]在内容召回场景中，通常包括召回和排序两大部分，通过计算目标语句或者搜索引擎的使用场景中，根据相似度的大小为召回内容排序，将排序后的召回内容展示给用户。
[0004]然而，现有技术一般基于BERT模型对目标语句进行句向量表征，生成目标语句的句向量，再根据相似度为目标语句匹配最相似的召回内容。BERT模型对句向量的表征结果呈锥形分布，高频词聚集在锥头部，匹配词分散在锥尾，因此影响句子的分布，使得不同句子的整体相似度很高，在此基础上，根据相似度匹配召回内容会导致匹配结果准确率不高。

技术实现思路

[0005]本专利技术提供一种内容召回方法、装置、计算机设备及存储介质，以提高获取召回内容的准确性。
[0006]一种内容召回方法，包括：
[0007]获取目标语料，并将所述目标语料输入到预设的句向量表征模型中，得到所述目标语料的语料表征向量，其中，所述预设的句向量表征模型基于对比学习模型构建；
[0008]获取预设的召回候选集，其中，所述召回候选集中包含至少两个候选召回语料；
[0009]基于语义识别方式，对所述目标语料和每个所述候选召回语料...

【技术保护点】

【技术特征摘要】
1.一种内容召回方法，其特征在于，包括：获取目标语料，并将所述目标语料输入到预设的句向量表征模型中，得到所述目标语料的语料表征向量，其中，所述预设的句向量表征模型基于对比学习模型构建；获取预设的召回候选集，其中，所述召回候选集中包含至少两个候选召回语料；基于语义识别方式，对所述目标语料和每个所述候选召回语料进行语义识别，得到语义识别结果，并基于所述语义识别结果，得到候选语料集，其中，所述候选语料集包含至少两个候选语料；生成每个所述候选语料的候选语料向量，并计算每个所述候选语料向量和所述语料表征向量的向量相似度，得到向量相似度值；将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合，得到所述目标语料对应的召回内容。2.根据权利要求1所述的内容召回方法，其特征在于，在所述获取目标语料，并将所述目标语料输入到预设的句向量表征模型中，得到所述目标语料的语料表征向量之前，包括：获取训练数据，将所述训练数据输入到预训练模型中生成训练表征向量，并基于所述训练表征向量生成损失优化函数，其中，所述预训练模型基于对比学习模型构建；将所述训练数据输入到所述预训练模型中，并基于所述预训练模型的初始参数和损失优化函数进行参数迭代，直到迭代停止后，得到训练之后的预训练模型，作为预设的句向量表征模型。3.根据权利要求2所述的内容召回方法，其特征在于，所述获取训练数据，将所述训练数据输入到预训练模型中生成训练表征向量，并基于所述训练表征向量生成损失优化函数包括：将所述训练数据中的第一样本数据输入到预训练模型的dropout编码器中，得到第一预测向量，基于第一样本数据的嵌入标签和所述第一预测向量，生成第一损失函数；将所述第一样本数据输入到所述预训练模型的dropout编码器中，得到第二预测向量，基于所述第一预测向量和所述第二预测向量，得到第二损失函数；基于对比损失函数，根据所述第一预测向量和所述第二预测向量生成第三损失函数；将所述第一损失函数、所述第二损失函数以及所述第三损失函数进行权重求和，得到所述损失优化函数。4.根据权利要求1所述的内容召回方法，其特征在于，所述获取目标语料，并将所述目标语料输入到预设的句向量表征模型中，得到所述目标语料的的语料表征向量包括：获取用户输入的的文本语料，对所述文本语料进行标准化处理，得到标准语料，作为目标语料；将所述目标语料输入到预设的句向量表征模型中，得到所述目标语料的语料表征向量。5.根据权利要求1所述的内容召回方法，其特征在于，所述基于语义识别方式，对所述目标语料和每个所述候选召回语料进行语义识别，得到语义识别结果，并基于所述语义识别结果，得到候选语料集包括：对所述预设的召回候选集中的候选召回语料进行语义消歧和语义识别，得到所述候选召回语料...

【专利技术属性】
技术研发人员：马建，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人