嵌套实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38596642 阅读:11 留言:0更新日期:2023-08-26 23:32
本发明专利技术涉及用于数字医疗领域的自然语言处理技术,揭露一种嵌套实体识别方法,包括:对历史文本数据编码得到编码数据向量,对编码数据向量和历史文本数据的位置信息拼接为拼接向量序列;搜索拼接向量序列对应的最终优化向量,将最终优化向量输入初始实体识别模型进行嵌入实体识别,得到实体预测结果;根据二维向量边界映射的边界特征向量和实体预测结果构建标准损失函数,利用标准损失函数对初始实体模型进行模型训练,得到标准实体识别模型并得到待识别句子对应的嵌入实体。此外,本发明专利技术还涉及区块链技术,编码数据向量可存储于区块链的节点。本发明专利技术还提出一种嵌套实体识别装置、电子设备以及存储介质。本发明专利技术可以提高嵌套实体识别的准确度。体识别的准确度。体识别的准确度。

【技术实现步骤摘要】
嵌套实体识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及数字医疗领域,尤其涉及一种嵌套实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]实体识别作为自然语言处理过程中的重要步骤,被广泛应用到信息抽取、信息检索、信息推荐等任务中。也可以应用到数字医疗领域中进行医学信息抽取。由于自然语言存在多样性,大量文本中存在着嵌套实体。其中,嵌套实体是指整体上构成一个实体,同时其内部还包含了若干个简单实体的情况。在一些领域的非结构化文本中,嵌套实体的现象普遍存在,而传统的实体识别研究没有对嵌套实体做出针对性的设计,导致实体识别的准确率下降。因此需要提出一种准确度更高的嵌套实体识别方法。

技术实现思路

[0003]本专利技术提供一种嵌套实体识别方法、装置、电子设备及存储介质,其主要目的在于提高嵌套实体识别的准确度。
[0004]为实现上述目的,本专利技术提供的一种嵌套实体识别方法,包括:
[0005]获取历史文本数据及所述历史文本数据的位置信息,利用预训练语言模型对所述历史文本数据进行编码处理,得到编码数据向量,对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理,得到拼接向量序列;
[0006]利用匈牙利算法搜索所述拼接向量序列对应的最终优化向量,将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别,得到实体预测结果;
[0007]对预获取的二维向量进行边界映射处理,得到边界特征向量,根据所述边界特征向量和所述实体预测结果构建标准损失函数,并利用所述标准损失函数得到的损失函数值对所述初始实体模型进行模型训练,得到标准实体识别模型;
[0008]将待识别句子输入至所述标准实体识别模型中,得到所述待识别句子对应的嵌入实体。
[0009]可选地,所述对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理,得到拼接向量序列,包括:
[0010]将所述编码数据向量和所述历史文本数据的位置信息组合为数据信息,并将预先定义的学习向量及所述学习向量所在的位置信息组合为学习信息;
[0011]对所述数据信息和所述学习信息进行拼接展开处理,得到拼接向量序列。
[0012]可选地,所述对所述数据信息和所述学习信息进行拼接展开处理,得到拼接向量序列,包括:
[0013]将所述数据信息中的编码数据向量与所述学习信息中的学习向量进行相乘处理,得到第一拼接序列;
[0014]将所述数据信息中的所述历史文本数据的位置信息与所述学习信息中的所述学
习向量所在的位置信息进行相乘处理,得到第二拼接序列;
[0015]对所述第一拼接序列和所述第二拼接序列进行求和计算,得到拼接向量序列。
[0016]可选地,所述将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别,得到实体预测结果,包括:
[0017]利用所述初始实体识别模型对所述最终优化向量进行概率预测,得到实体类型概率;
[0018]根据所述实体类型概率确定所述最终优化向量对应的预测实体标签,利用预设的标签预测算法对所述预测实体标签进行类型预测,得到所述历史文本数据的实体类型;
[0019]将所述历史文本数据的实体类型作为实体预测结果。
[0020]可选地,所述对预获取的二维向量进行边界映射处理,得到边界特征向量,包括:
[0021]识别所述历史文本数据的位置信息对应的维度大小,并将所述二维向量映射到与所述维度大小相同的维度上,得到转换向量;
[0022]对所述转换向量与所述编码数据向量进行点积计算,并对点积计算的结果与所述学习向量所在的位置信息进行求和处理,将求和处理得到的结果进行偏移量映射,得到边界特征向量。
[0023]可选地,所述根据所述边界特征向量和所述实体预测结果构建标准损失函数,包括:
[0024]对所述实体预测结果和预设实体真实结果进行差值计算,得到差值部分;
[0025]获取预设参考权重,对所述差值部分和所述边界特征向量进行权重分配并根据分配后的权重生成标准损失函数。
[0026]可选地,所述利用所述标准损失函数得到的损失函数值对所述初始实体模型进行模型训练,得到标准实体识别模型,包括:
[0027]比较所述标准损失函数得到的损失函数值与预设损失阈值之间的大小;
[0028]当所述损失函数值小于或者等于所述预设损失阈值时,将所述初始实体模型输出为标准实体识别模型;
[0029]当所述损失函数值大于所述预设损失阈值时,对所述初始实体模型进行参数调整,直至进行参数调整后的所述初始实体模型满足预设要求,将参数调整后的模型输出为标准实体识别模型。
[0030]为了解决上述问题,本专利技术还提供一种嵌套实体识别装置,所述装置包括:
[0031]向量拼接模块,用于获取历史文本数据及所述历史文本数据的位置信息,利用预训练语言模型对所述历史文本数据进行编码处理,得到编码数据向量,对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理,得到拼接向量序列;
[0032]实体识别模块,用于利用匈牙利算法搜索所述拼接向量序列对应的最终优化向量,将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别,得到实体预测结果;
[0033]函数构建模块,用于对预获取的二维向量进行边界映射处理,得到边界特征向量,根据所述边界特征向量和所述实体预测结果构建标准损失函数,并利用所述标准损失函数得到的损失函数值对所述初始实体模型进行模型训练,得到标准实体识别模型;
[0034]模型应用模块,用于将待识别句子输入至所述标准实体识别模型中,得到所述待
识别句子对应的嵌入实体。
[0035]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0036]至少一个处理器;以及,
[0037]与所述至少一个处理器通信连接的存储器;其中,
[0038]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的嵌套实体识别方法。
[0039]为了解决上述问题,本专利技术还提供一种存储介质,所述存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的嵌套实体识别方法。
[0040]本专利技术实施例中,通过对历史文本数据编码处理后的编码数据向量和历史文本数据的位置信息进行拼接处理,得到拼接向量序列,添加了位置信息,并通过拼接处理使得模型收敛速度提高。对预获取的二维向量进行边界映射处理,得到边界特征向量,根据所述边界特征向量和所述实体预测结果构建标准损失函数,添加二维向量到损失函数中可以缓解信息交互带来的模型困扰,利用所述标准损失函数得到的损失函数值对所述初始实体模型进行模型训练,得到标准实体识别模型,利用标准实体识别模型对待识别句子的识别准确度更高。因此本专利技术提出的嵌套实体识别方法、装置、电子设备及存储介质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种嵌套实体识别方法,其特征在于,所述方法包括:获取历史文本数据及所述历史文本数据的位置信息,利用预训练语言模型对所述历史文本数据进行编码处理,得到编码数据向量,对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理,得到拼接向量序列;利用匈牙利算法搜索所述拼接向量序列对应的最终优化向量,将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别,得到实体预测结果;对预获取的二维向量进行边界映射处理,得到边界特征向量,根据所述边界特征向量和所述实体预测结果构建标准损失函数,并利用所述标准损失函数得到的损失函数值对所述初始实体模型进行模型训练,得到标准实体识别模型;将待识别句子输入至所述标准实体识别模型中,得到所述待识别句子对应的嵌入实体。2.如权利要求1所述的嵌套实体识别方法,其特征在于,所述对所述编码数据向量和所述历史文本数据的位置信息进行拼接处理,得到拼接向量序列,包括:将所述编码数据向量和所述历史文本数据的位置信息组合为数据信息,并将预先定义的学习向量及所述学习向量所在的位置信息组合为学习信息;对所述数据信息和所述学习信息进行拼接展开处理,得到拼接向量序列。3.如权利要求2所述的嵌套实体识别方法,其特征在于,所述对所述数据信息和所述学习信息进行拼接展开处理,得到拼接向量序列,包括:将所述数据信息中的编码数据向量与所述学习信息中的学习向量进行相乘处理,得到第一拼接序列;将所述数据信息中的所述历史文本数据的位置信息与所述学习信息中的所述学习向量所在的位置信息进行相乘处理,得到第二拼接序列;对所述第一拼接序列和所述第二拼接序列进行求和计算,得到拼接向量序列。4.如权利要求1所述的嵌套实体识别方法,其特征在于,所述将所述最终优化向量输入至初始实体识别模型中进行嵌入实体识别,得到实体预测结果,包括:利用所述初始实体识别模型对所述最终优化向量进行概率预测,得到实体类型概率;根据所述实体类型概率确定所述最终优化向量对应的预测实体标签,利用预设的标签预测算法对所述预测实体标签进行类型预测,得到所述历史文本数据的实体类型;将所述历史文本数据的实体类型作为实体预测结果。5.如权利要求1所述的嵌套实体识别方法,其特征在于,所述对预获取的二维向量进行边界映射处理,得到边界特征向量,包括:识别所述历史文本数据的位置信息对应的维度大小,并将所述二维向量映射到与所述维度大小相同的维度上,得到转换向量;对所述转换向量与所述编码数据向量...

【专利技术属性】
技术研发人员:刘羲舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1