基于对比学习的实体链接模型的训练方法、装置、设备制造方法及图纸

技术编号：33543245 阅读：17 留言：0更新日期：2022-05-21 09:56

本发明专利技术属于人工智能领域，提供了一种基于对比学习的实体链接模型的训练方法、装置、设备，方法包括：从知识图谱的至少两个实体概念获取目标参考实体，通过语义识别处理得到第一语义向量；对第一语义向量进行特征丢弃处理得到多个第二语义向量；获取实体样本正例样本和负例样本，正例样本为同一实体概念的第二语义向量，负例样本为不同实体概念的第一语义向量；将实体样本和训练数据输入实体链接模型进行训练。根据本实施例的技术方案，能够通过对目标参考实体的语义处理和特征丢弃处理得到多个正例样本和负例样本，能够在标注较少的情况下增加样本数量，减少训练数据的获取成本，实现对比学习，有效提高了实体链接模型训练的效率和准确性。效率和准确性。效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于对比学习的实体链接模型的训练方法、装置、设备

[0001]本专利技术属于人工智能
，尤其涉及一种基于对比学习的实体链接模型的训练方法、装置、设备。

技术介绍

[0002]随着人工智能技术的发展，实体链接是自然语言处理技术的重要模块，在垂直领域广泛应用于问答系统、搜索系统或推荐系统等。实体链接是指将自然语言中的文本与知识图谱的图谱条目进行链接，匹配出目标实体，从而将目标实体作为对用户的应答进行输出。
[0003]为了提高实体链接的准确性，需要对实体链接模型进行训练。训练样本通常由人工进行数据标注，如果人工标注的数量少，实体链接的匹配准确率较低，不适合应用；如果人工标注的数量非常多，耗费的人力非常大，尤其对于医学等专业程度较高的领域，细小的字面差别可能是完全不同的实体概念，这对标注人员的学术要求非常高，很难让标注人员标注大量不同研究方向的数据，训练数据获取成本非常高。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本专利技术实施例提供了一种基于对比学习的实体链接模型的训练方法、装置、设备，能够对实体链接的训练数据进行扩展，增加训练数据的数量，提高实体链接的准确性。
[0006]第一方面，本专利技术实施例提供了一种基于对比学习的实体链接模型的训练方法，包括：
[0007]获取预设的知识图谱，所述知识图谱包括多个实体概念，每个所述实体概念关联有至少一个参考实体；
[0008]从至少两个所述实体...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的实体链接模型的训练方法，其特征在于，包括：获取预设的知识图谱，所述知识图谱包括多个实体概念，每个所述实体概念关联有至少一个参考实体；从至少两个所述实体概念获取所述参考实体，得到由多个目标参考实体组成的实体组；对所述实体组进行语义识别处理，得到每个所述目标参考实体所对应的第一语义向量；对所述第一语义向量进行特征丢弃处理，得到每个所述目标参考实体所对应的多个第二语义向量；从所述目标参考实体中确定实体样本，获取所述实体样本的训练数据，所述训练数据包括正例样本和负例样本，所述正例样本为与所述实体样本归属于相同所述实体概念的所述目标参考实体所对应的所述第二语义向量，所述负例样本为与所述实体样本归属于不同所述实体概念的所述目标参考实体所对应的第一语义向量；将所述实体样本和所述实体样本的训练数据输入实体链接模型进行训练。2.根据权利要求1所述的基于对比学习的实体链接模型的训练方法，其特征在于，所述从至少两个所述实体概念获取所述参考实体，得到由多个目标参考实体组成的实体组，包括：将所述知识图谱的全部所述参考实体确定为所述目标参考实体；对所述目标参考实体进行预处理；根据预设数量将预处理后的多个所述目标参考实体分成多个所述实体组，每个所述实体组包括至少两个归属于不同所述实体概念的所述目标参考实体。3.根据权利要求2所述的基于对比学习的实体链接模型的训练方法，其特征在于，所述对所述实体组进行语义识别处理，得到每个所述目标参考实体所对应的第一语义向量，包括：将多个所述实体组依次输入至预设的RoBERTa模型；通过所述RoBERTa模型对每个所述实体组中的每个所述目标参考实体进行语义识别处理，得到每个所述目标参考实体所对应的所述第一语义向量。4.根据权利要求1所述的基于对比学习的实体链接模型的训练方法，其特征在于，所述对所述第一语义向量进行特征丢弃处理，得到每个所述目标参考实体所对应的多个第二语义向量，包括：对所述第一语义向量进行多次特征丢弃处理，每次特征丢弃处理丢弃所述第一语义向量中的至少一个特征；将每次特征丢弃处理得到结果确定为所述第二语义向量。5.根据权利要求1所述的基于对比学习的实体链接模型的训练方法，其特征在于，所述实体链接模型包括感知机，所述将所述实体样本和所...

【专利技术属性】
技术研发人员：付桂振，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人