一种命名实体识别方法、系统、存储介质和电子设备技术方案

技术编号:39408039 阅读:25 留言:0更新日期:2023-11-19 16:00
本发明专利技术公开了一种命名实体识别方法、系统、存储介质和电子设备,所述方法包括:基于多个训练文本,对预设命名实体识别网络进行训练,得到目标命名实体识别网络;其中,所述预设命名实体识别网络包括:依次连接设置的联合编码模块、双向长短期记忆网络模型、注意力层和条件随机场模型;将待识别文本输入至所述目标命名实体识别网络中,得到所述待识别文本的命名实体识别结果。本发明专利技术通过改进的命名实体识别网络对文本中的标准实体进行识别抽取,提高了知识抽取的准确度、精度、泛化能力等方面的性能。性能。性能。

【技术实现步骤摘要】
一种命名实体识别方法、系统、存储介质和电子设备


[0001]本专利技术涉及神经网络
,尤其涉及一种命名实体识别方法、系统、存储介质和电子设备。

技术介绍

[0002]命名实体识别一直被认为是一个具有挑战性的问题,其中包括实体的识别以及分类等。如今,随着文本文献的大量增长,使得该问题的解决变得愈加困难和紧迫。尽管命名实体识别已经在学术界和工业界被大量研究,但由于数据格式的杂乱以及数据量的庞大,导致该问题任未能很好解决。
[0003]当前的命名实体识别方法中:1)存在使用关键词识别算法对文本中的关键信息进行识别,这种方法只能对一些比较规则的关键信息进行识别抽取,而对于以不规则的形式存在的文本,对于这类实体此方法则不能有很好的效果。2)存在以知识图谱技术为基础,并且将知识图谱中的信息作为先验知识参与到信息的抽取当中去。通过高效的维护和利用先验知识,可以将文本中的实体信息元素从复杂的文本数据中的抽取出来。但是此方法需要庞大的先验知识作为辅助,而有的时候通常没有这种先验知识,并且构建和维护这种先验知识也需要一定的成本。<br/>[0004]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:基于多个训练文本,对预设命名实体识别网络进行训练,得到目标命名实体识别网络;其中,所述预设命名实体识别网络包括:依次连接设置的联合编码模块、双向长短期记忆网络模型、注意力层和条件随机场模型;将待识别文本输入至所述目标命名实体识别网络中,得到所述待识别文本的命名实体识别结果。2.根据权利要求1所述的命名实体识别方法,其特征在于,基于多个训练文本,对预设命名实体识别网络进行训练,得到目标命名实体识别网络的步骤,包括:将任一训练文本输入至所述预设命名实体识别网络的联合编码模块,并依次通过所述联合编码模块、所述双向长短期记忆网络模型、所述注意力层和所述条件随机场模型进行处理,得到该训练文本的预测标签值,并根据该训练文本的预测标签值和真实标签值,得到该训练文本的损失值,直至得到每个训练文本的损失值;根据所有的损失值,对所述预设命名实体识别网络的网络参数进行优化,得到优化后的命名实体识别网络,将所述优化后的命名实体识别网络作为所述预设命名实体识别网络并返回执行所述将任一训练文本输入至所述预设命名实体识别网络的所述联合编码模块的步骤,直至所述优化后的命名实体识别网络满足预设训练条件时,将所述优化后的命名实体识别网络确定为所述目标命名实体识别网络。3.根据权利要求2所述的命名实体识别方法,其特征在于,将任一训练文本输入至所述预设命名实体识别网络的联合编码模块,并依次通过所述联合编码模块、所述双向长短期记忆网络模型、所述注意力层和所述条件随机场模型进行处理,得到该训练文本的预测标签值的步骤,包括:将所述任一训练文本中的每个字词输入至所述联合编码模块进行编码,得到包含该训练文本的每个字词的拼接词向量的第一词向量序列;将所述任一训练文本的第一向量序列中的每个拼接词向量分别输入至所述双向长短期记忆网络模型进行字词上下文依赖关系的学习,得到该训练文本的第二词向量序列并输入至所述所述注意力层进行字词上下文依赖关系的强化,得到该训练文本的第三词向量序列;将所述任一训练文本的第三词向量序列中的每个词向量分别输入至所述条件随机场模型进行序列标注,得到该训练文本的包含每个字词的预测实体类别的预测标签值。4.根据权利要求3所述的命名实体识别方法,其特征在于,所述联合编码模块包括:BERT模型、FastText模型和向量拼接层;将所述任一训练文本中的每个字词输入至所述联合编码模块进行编码,得到包含该训练文本的每个字词的拼接词向量的第一词向量序列的步骤,包括:将所述任一训练文本中的每个字词输入至所述BERT模型进行向量编码,得到该训练文本的每个字词对应的第一词向量;将所述任一训练文本中的每个字词输入至所述FastText模型进行向量编码,得到该训练文本的每个字词对应的第二词向量;将所述任一训练文本中的每个字词对应的第一词向量与第二词向量分别输入至所述向量拼接层进行拼接,得到包含该训练文本中的每个字词对应的拼接词向量的第一向量序
列。5.根据权...

【专利技术属性】
技术研发人员:刘冰惠泉谭笑李莉薛鲁宁孙大微张栩赫
申请(专利权)人:国家石油天然气管网集团有限公司科学技术研究总院分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1