基于融合多层语义特征的命名实体识别方法、设备和介质技术

技术编号：37471524 阅读：14 留言：0更新日期：2023-05-06 09:52

本发明专利技术公开了一种基于融合多层语义特征的命名实体识别方法、设备和介质，包括：获取文本数据集分为训练集和测试集，采用BIO标注方法对数据集中每个样本的字符进行标注；将标注后的数据集中的每条数据构建对应的标签序列；构建命名实体识别模型并利用训练集进行训练，命名实体识别模型包括Bert预训练语言模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层、条件随机场CRF层；将测试集输入训练好的命名实体识别模型，获得命名实体识别结果。该方法能够改善长文本中或包含长实体的文本中的实体提取效果，提升整体命名实体识别的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于融合多层语义特征的命名实体识别方法、设备和介质

[0001]本专利技术属于命名实体识别领域，具体涉及一种基于融合多层语义特征的命名实体识别方法、设备和介质。

技术介绍

[0002]近年来，随着互联网信息技术的发展，在各领域内中的各式信息展现出爆炸式的增长，每天都会有海量的新数据产生，面对这些大量的数据，利用深度学习的方法从中获取有用的信息成为当下主流的研究热点。命名实体识别（Named Entity Recognition, NER）作为信息抽取中的一个重要任务，旨在从非结构化文本中提取有效的实体信息，例如时间、地点、人物、组织机构等。实体识别技术的提升对后续关系抽取、机器翻译、图谱构建等下游任务的发展有着重大帮助。目前，命名实体识别技术已经在通用领域内有了较为充分的研究。
[0003]在传统的命名实体识别方法中，基本都以字典和规则的方式来实现，后来随着机器学习的出现，传统方法逐渐被取代。近几年来，随着深度学习技术的快速发展，以往的实体识别方法在神经网络模型的帮助下有了更好地提升。目前在基于深度学习的中文命名实体识别方法中，文本的处理大部分都以字或词作为单位，然而以字或词为特征的实体识别方法无法充分利用文本的信息，尤其在针对长文本或者包含长实体的一些数据文本中，想要有效地提取实体却比较困难。

技术实现思路

[0004]本专利技术的目的在于针对上述问题，提出一种基于融合多层语义特征的命名实体识别方法、设备和介质，可更加充分地利用文本信息，从而提升命名实体识别的性能。
[0005]为实...

【技术保护点】

【技术特征摘要】
1.一种基于融合多层语义特征的命名实体识别方法，其特征在于：所述基于融合多层语义特征的命名实体识别方法包括如下步骤：步骤1、构建训练命名实体识别模型的数据集并将其划分为训练集和测试集，同时采用BIO标注方法对数据集中的各个字符进行标注；步骤2、对文本数据集中的每一条数据构建对应的标签序列，标签序列表示如下：，式中，表示每一条数据中的第个字符，表示第个字符对应的实体标签类别，表示每一条数据的长度；步骤3、构建融合多层语义特征的命名实体识别模型并利用训练集训练，命名实体识别模型包括Bert预训练模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层和条件随机场CRF层；步骤4、将测试集中待识别的数据输入训练好的命名实体识别模型，获得命名实体识别结果，其中识别效果指标包括精确率P、召回率R和F1值其中一种或多种。2.如权利要求1所述的基于融合多层语义特征的命名实体识别方法，其特征在于：所述步骤1中的BIO标注方法为：将样本中的每个字符标注为“B
‑
X”、“I
‑
X”或者“O”，其中，“B
‑
X”表示此字符所在的实体属于X类型并且此字符属于实体的开头，“I
‑
X”表示此字符所在的实体属于X类型并且此字符在此实体的中间位置或末尾位置，“O”则表示此字符不属于任何类型。3.如权利要求1所述的基于融合多层语义特征的命名实体识别方法，其特征在于：所述步骤3中模型训练过程包括：步骤31、利用Bert预训练模型对训练集中的所有样本进行字符特征提取，将样本中的每一个字符映射成768维的字符特征向量；步骤32、构建多层Transformer编码网络，利用多层Transformer编码网络对训练集中的样本进行特征提取，底层Transformer提取浅层语义信息，顶层Transformer提取深层语义信息，将这两层语义信息特征融合后采用均值操作得到768维的语义特征向量；步骤33、将步骤31中的字符特征向量和步骤32中的语义特征向量进行拼接，得到融合多层语义特征的拼接向量；步骤34、将步骤33得到的向量作为双向长短期记忆...

【专利技术属性】
技术研发人员：郭方洪，金聪，朱琦，傅金波，刘涛，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人