一种基于循环神经网络的命名实体识别方法技术

技术编号：33121698 阅读：9 留言：0更新日期：2022-04-17 00:21

本发明专利技术公开了一种基于循环神经网络的命名实体识别方法，涉及人工智能技术领域，具体为一种基于循环神经网络的命名实体识别方法，具体包括如下步骤：S1、首先对命名实体识别任务数据集中的数据进行整理，统计出数据集中实体的类型，并采用BIO标注策略进行数据预处理，处理后的数据分为两列，第一列为数据集中的字符，第二列为对应的标注标签；S2、获取当前序列文本的上下文特征；S3、获得前位置字符的标签。本发明专利技术提出的RFLSTM模型主要是考虑到下面的情况：有A，B两个信息，A信息是我们记忆的信息，B信息是我们新输入的信息，B信息会和A信息产生关联，A信息将会被遗忘门丢弃。A信息将会被遗忘门丢弃。A信息将会被遗忘门丢弃。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于循环神经网络的命名实体识别方法

[0001]本专利技术涉及人工智能领域，尤其涉及一种基于循环神经网络的命名实体识别方法

技术介绍

[0002]命名实体识别是专业术语，源自1995年的第六届信息理解会议。命名实体识别通常指文本中具有特定意义或指代性强的实体，通常包括人名、组织机构名、地名等专有词汇，以及日期、时间、数量、货币、比例、数值等数量短语。命名实体识别旨在自动识别文本中表示命名实体的成分，并对其进行分类。命名实体识别一直是信息检索与自然语言处理中的一个重要研究领域，识别出的命名实体是构建许多智能服务的基础，是信息提取、问答系统、句法分析、机器翻译、知识图谱构建等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。
[0003]传统的命名实体识别模型长短期记忆网络(Long Short Term Memory)是为了解决循环神经网络存在的长期依赖问题而提出来的一种特殊的循环神经网络，它具有称为“门”的机制，用来调节信息流。这些“门”可以知道序列中哪些信息可以保留，哪些信息可以删除，LSTM主要由遗忘门、输入门、输出门和细胞状态组成。当前细胞状态经过遗忘门控制的上一个细胞的状态加上输入门控制的新输入的信息相加得到，其中遗忘的信息和新输入的信息是独立的。在我们人类的记忆过程中，遗忘与新输入的信息是有关的，如果新的信息刺激到我们以前记忆的信息，那以前的信息会被加强记忆，如果新的信息和我们以前记忆的信息没有任何关联，那以前的信息会被逐渐地忘记，考虑到我们人类上述的记忆特点，本专利技术...

【技术保护点】

【技术特征摘要】
1.一种基于循环神经网络的命名实体识别方法，具体包括如下步骤：S1、首先对命名实体识别任务数据集中的数据进行整理，统计出数据集中实体的类型，并采用BIO标注策略进行数据预处理，处理后的数据分为两列，第一列为数据集中的字符，第二列为对应的标注标签；S2、获取当前序列文本的上下文特征：S21、设置输入门i
t
、遗忘门f
t
和输出门o
t
，三种门都是由当前输入x
t
、上一个隐藏层和上一个细胞状态C
t
‑1控制的；S22、首先由x
t
和输入门i
t
得到新信息C
new
；S23、新信息再与上一个细胞状态C
t
‑1融合，得到融合后的新信息，再经过遗忘门f
t
，得到遗忘后的新信息；S24、再与前面的新信息C
new
融合得到当前的细胞状态C
t
，当前细胞状态再经过输出门控制得到当前隐藏层的输出当前序列文本的特征，此时得到的从前往后的序列文本特征，要想获得文本的上下文特征信息，还需要从后往前计算一遍，将两遍得到的隐藏层相加，得到当前序列文本的上下文特征；S3、获得前位置字符的标签：该部分将上一步得到的当前序列文本的上下文特征输入到条件随机场模型中，得到当前位置字符的标签概率，从而得到当前位置字符的标签。2.根据权利要求1所述的一种基于循环神经网络的命名实体识别方法，其特征在于，所述步骤S1中需要对原始数据集进行数据预处理，采用BIO标注策略，BIO标注将每个字标注为“B
‑
X”、“I
‑
X”或“O”，“B
‑
X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I
‑
X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。3.根据权利要求1所述的一种基于循环神经网络的命名实体识别方法，其特征在于，所述步骤S21中需要计算输入门i
...

【专利技术属性】
技术研发人员：刘杰，陈斌，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人