嵌套实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38596642 阅读：11 留言：0更新日期：2023-08-26 23:32

本发明专利技术涉及用于数字医疗领域的自然语言处理技术，揭露一种嵌套实体识别方法，包括：对历史文本数据编码得到编码数据向量，对编码数据向量和历史文本数据的位置信息拼接为拼接向量序列；搜索拼接向量序列对应的最终优化向量，将最终优化向量输入初始实体识别模型进行嵌入实体识别，得到实体预测结果；根据二维向量边界映射的边界特征向量和实体预测结果构建标准损失函数，利用标准损失函数对初始实体模型进行模型训练，得到标准实体识别模型并得到待识别句子对应的嵌入实体。此外，本发明专利技术还涉及区块链技术，编码数据向量可存储于区块链的节点。本发明专利技术还提出一种嵌套实体识别装置、电子设备以及存储介质。本发明专利技术可以提高嵌套实体识别的准确度。体识别的准确度。体识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
嵌套实体识别方法、装置、电子设备及存储介质

[0001]本专利技术涉及数字医疗领域，尤其涉及一种嵌套实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]实体识别作为自然语言处理过程中的重要步骤，被广泛应用到信息抽取、信息检索、信息推荐等任务中。也可以应用到数字医疗领域中进行医学信息抽取。由于自然语言存在多样性，大量文本中存在着嵌套实体。其中，嵌套实体是指整体上构成一个实体，同时其内部还包含了若干个简单实体的情况。在一些领域的非结构化文本中，嵌套实体的现象普遍存在，而传统的实体识别研究没有对嵌套实体做出针对性的设计，导致实体识别的准确率下降。因此需要提出一种准确度更高的嵌套实体识别方法。

技术实现思路

[0003]本专利技术提供一种嵌套实体识别方法、装置、电子设备及存储介质，其主要目的在于提高嵌套实体识别的准确度。
[0004]为实现上述目的，本专利技术提供的一种嵌套实体识别方法，包括：
[0005]获取历史文本数据及所述历史文本数据的位置信息，利用预训练语言模型对所述历史文本数据进行编码处理，得到编码数据向量，对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理，得到拼接向量序列；
[0006]利用匈牙利算法搜索所述拼接向量序列对应的最终优化向量，将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别，得到实体预测结果；
[0007]对预获取的二维向量进行边界映射处理，得到边界特征向量，根据所述边界特征向量和所述实体预测结果构建标准损失函数，并利用...

【技术保护点】

【技术特征摘要】
1.一种嵌套实体识别方法，其特征在于，所述方法包括：获取历史文本数据及所述历史文本数据的位置信息，利用预训练语言模型对所述历史文本数据进行编码处理，得到编码数据向量，对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理，得到拼接向量序列；利用匈牙利算法搜索所述拼接向量序列对应的最终优化向量，将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别，得到实体预测结果；对预获取的二维向量进行边界映射处理，得到边界特征向量，根据所述边界特征向量和所述实体预测结果构建标准损失函数，并利用所述标准损失函数得到的损失函数值对所述初始实体模型进行模型训练，得到标准实体识别模型；将待识别句子输入至所述标准实体识别模型中，得到所述待识别句子对应的嵌入实体。2.如权利要求1所述的嵌套实体识别方法，其特征在于，所述对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理，得到拼接向量序列，包括：将所述编码数据向量和所述历史文本数据的位置信息组合为数据信息，并将预先定义的学习向量及所述学习向量所在的位置信息组合为学习信息；对所述数据信息和所述学习信息进行拼接展开处理，得到拼接向量序列。3.如权利要求2所述的嵌套实体识别方法，其特征在于，所述对所述数据信息和所述学习信息进行拼接展开处理，得到拼接向量序列，包括：将所述数据信息中的编码数据向量与所述学习信息中的学习向量进行相乘处理，得到第一拼接序列；将所述数据信息中的所述历史文本数据的位置信息与所述学习信息中的所述学习向量所在的位置信息进行相乘处理，得到第二拼接序列；对所述第一拼接序列和所述第二拼接序列进行求和计算，得到拼接向量序列。4.如权利要求1所述的嵌套实体识别方法，其特征在于，所述将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别，得到实体预测结果，包括：利用所述初始实体识别模型对所述最终优化向量进行概率预测，得到实体类型概率；根据所述实体类型概率确定所述最终优化向量对应的预测实体标签，利用预设的标签预测算法对所述预测实体标签进行类型预测，得到所述历史文本数据的实体类型；将所述历史文本数据的实体类型作为实体预测结果。5.如权利要求1所述的嵌套实体识别方法，其特征在于，所述对预获取的二维向量进行边界映射处理，得到边界特征向量，包括：识别所述历史文本数据的位置信息对应的维度大小，并将所述二维向量映射到与所述维度大小相同的维度上，得到转换向量；对所述转换向量与所述编码数据向量...

【专利技术属性】
技术研发人员：刘羲，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人