候选实体生成模型训练方法及装置制造方法及图纸

技术编号：32186431 阅读：48 留言：0更新日期：2022-02-08 15:50

本申请提供候选实体生成模型训练方法及装置，其中所述候选实体生成模型训练方法包括：接收训练样本，训练样本包括实体样本和实体描述文本样本；将实体样本和实体描述文本样本分别输入至特征提取层进行特征提取处理，获得实体特征向量和文本特征向量；将实体特征向量和文本特征向量分别输入至池化层进行池化处理，获得实体嵌入向量和文本嵌入向量；确定实体嵌入向量和文本嵌入向量之间的相似度，根据相似度计算损失值；根据损失值调整候选实体生成模型的参数，继续训练候选实体生成模型，直至达到训练停止条件，得到完成训练的候选实体生成模型。节省了大量的人力物力，能够有效解决未登录词的问题，操作简单高效，提高了候选实体生成的准确率。选实体生成的准确率。选实体生成的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
候选实体生成模型训练方法及装置

[0001]本申请涉及计算机
的人工智能领域，特别涉及一种候选实体生成模型训练方法。本申请同时涉及一种候选实体生成模型训练装置、一种候选实体生成方法、一种候选实体生成装置、一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligence；AI)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。随着计算机技术的发展，自然语言处理(Natural Language Processing)领域和知识图谱领域也得到了快速发展。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。在对自然语言进行处理时，为了更好地理解文本，需要对文本对应的知识图谱进行确定，即对文本中的实体进行识别，并将文本中的实体名称与知识库中的实体相对应，即需要进行实体链接工作。实体链接通常包含两个模块：候选实体生成和候选...

【技术保护点】

【技术特征摘要】
1.一种候选实体生成模型训练方法，其特征在于，所述候选实体生成模型包括特征提取层和池化层，所述方法包括：接收训练样本，所述训练样本包括实体样本和实体描述文本样本；将所述实体样本和所述实体描述文本样本分别输入至所述特征提取层进行特征提取处理，获得实体特征向量和文本特征向量；将所述实体特征向量和所述文本特征向量分别输入至所述池化层进行池化处理，获得实体嵌入向量和文本嵌入向量；确定所述实体嵌入向量和所述文本嵌入向量之间的相似度，根据所述相似度计算损失值；根据所述损失值调整所述候选实体生成模型的参数，返回执行所述将所述实体样本和所述描述文本样本分别输入至所述特征提取层进行特征提取处理的步骤，直至达到训练停止条件，得到完成训练的候选实体生成模型。2.根据权利要求1所述的方法，其特征在于，所述特征提取层包括结构、参数类型与参数数量均相同的第一子特征提取层和第二子特征提取层；所述将所述实体样本和所述实体描述文本样本分别输入至所述特征提取层进行特征提取处理，获得实体特征向量和文本特征向量，包括：将所述实体样本输入至所述第一子特征提取层进行特征提取处理，获得所述实体特征向量；将所述实体描述文本样本输入至所述第二子特征提取层进行特征提取处理，获得所述文本特征向量。3.根据权利要求1或2所述的方法，其特征在于，所述池化层包括结构、参数类型与参数数量均相同的第一子池化层和第二子池化层；所述将所述实体特征向量和所述文本特征向量分别输入至所述池化层进行池化处理，获得实体嵌入向量和文本嵌入向量，包括：将所述实体特征向量输入至所述第一子池化层进行池化处理，获得所述实体嵌入向量；将所述文本特征向量输入至所述第二子池化层进行池化处理，获得所述文本嵌入向量。4.根据权利要求1所述的方法，其特征在于，所述将所述实体特征向量和所述文本特征向量分别输入至所述池化层进行池化处理，获得实体嵌入向量和文本嵌入向量，包括：将所述实体特征向量和所述文本特征向量分别输入至所述池化层，利用所述池化层的平均池化策略，获得平均池化处理后的实体嵌入向量和文本嵌入向量；相应地，所述确定所述实体嵌入向量和所述文本嵌入向量之间的相似度，包括：利用余弦相似度计算方法，计算所述实体嵌入向量和所述文本嵌入向量之间的相似度。5.根据权利要求1所述的方法，其特征在于，所述根据所述相似度计算损失值，包括：将所述相似度与预设的目标值进行绝对值误差计算，得到所述相似度的损失值。6.根据权利要求5所述的方法，其特征在于，所述训练样本包括正样本和负样本，所述正样本包括实体样本和所述实体样本对应的实体描述文本样本，所述负样本包括实体样本
和所述实体样本非对应的实体描述文本样本；所述将所述相似度与预设的目标值进行绝对值误差计算，得到所述相似度的损失值，包括：在所述训练样本为正样本的情况下，将所述相似度与...

【专利技术属性】
技术研发人员：王得贤，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人