一种基于循环神经网络的命名实体识别方法技术

技术编号:33121698 阅读:9 留言:0更新日期:2022-04-17 00:21
本发明专利技术公开了一种基于循环神经网络的命名实体识别方法,涉及人工智能技术领域,具体为一种基于循环神经网络的命名实体识别方法,具体包括如下步骤:S1、首先对命名实体识别任务数据集中的数据进行整理,统计出数据集中实体的类型,并采用BIO标注策略进行数据预处理,处理后的数据分为两列,第一列为数据集中的字符,第二列为对应的标注标签;S2、获取当前序列文本的上下文特征;S3、获得前位置字符的标签。本发明专利技术提出的RFLSTM模型主要是考虑到下面的情况:有A,B两个信息,A信息是我们记忆的信息,B信息是我们新输入的信息,B信息会和A信息产生关联,A信息将会被遗忘门丢弃。A信息将会被遗忘门丢弃。A信息将会被遗忘门丢弃。

【技术实现步骤摘要】
一种基于循环神经网络的命名实体识别方法


[0001]本专利技术涉及人工智能领域,尤其涉及一种基于循环神经网络的命名实体识别方法

技术介绍

[0002]命名实体识别是专业术语,源自1995年的第六届信息理解会议。命名实体识别通常指文本中具有特定意义或指代性强的实体,通常包括人名、组织机构名、地名等专有词汇,以及日期、时间、数量、货币、比例、数值等数量短语。命名实体识别旨在自动识别文本中表示命名实体的成分,并对其进行分类。命名实体识别一直是信息检索与自然语言处理中的一个重要研究领域,识别出的命名实体是构建许多智能服务的基础,是信息提取、问答系统、句法分析、机器翻译、知识图谱构建等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
[0003]传统的命名实体识别模型长短期记忆网络(Long Short Term Memory)是为了解决循环神经网络存在的长期依赖问题而提出来的一种特殊的循环神经网络,它具有称为“门”的机制,用来调节信息流。这些“门”可以知道序列中哪些信息可以保留,哪些信息可以删除,LSTM主要由遗忘门、输入门、输出门和细胞状态组成。当前细胞状态经过遗忘门控制的上一个细胞的状态加上输入门控制的新输入的信息相加得到,其中遗忘的信息和新输入的信息是独立的。在我们人类的记忆过程中,遗忘与新输入的信息是有关的,如果新的信息刺激到我们以前记忆的信息,那以前的信息会被加强记忆,如果新的信息和我们以前记忆的信息没有任何关联,那以前的信息会被逐渐地忘记,考虑到我们人类上述的记忆特点,本专利技术在LSTM模型门机制的基础上,提出改进后的记忆优先的模型RFLSTM模型。

技术实现思路

[0004]本专利技术要解决的技术问题克服现有的缺陷,提供一种基于循环神经网络的命名实体识别方法,可以有效解决
技术介绍
中的问题。
[0005]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0006]一种基于循环神经网络的命名实体识别方法,具体包括如下步骤:
[0007]S1、首先对命名实体识别任务数据集中的数据进行整理,统计出数据集中实体的类型,并采用BIO标注策略进行数据预处理,处理后的数据分为两列,第一列为数据集中的字符,第二列为对应的标注标签;
[0008]S2、获取当前序列文本的上下文特征:
[0009]S21、设置输入门i
t
、遗忘门f
t
和输出门o
t
,三种门都是由当前输入x
t
、上一个隐藏层和上一个细胞状态C
t
‑1控制的;
[0010]S22、首先由x
t
和输入门i
t
得到新信息C
new

[0011]S23、新信息再与上一个细胞状态C
t
‑1融合,得到融合后的新信息,再经过遗忘门f
t
,得到遗忘后的新信息;
[0012]S24、再与前面的新信息C
new
融合得到当前的细胞状态C
t
,当前细胞状态再经过输
出门控制得到当前隐藏层的输出当前序列文本的特征,此时得到的从前往后的序列文本特征,要想获得文本的上下文特征信息,还需要从后往前计算一遍,将两遍得到的隐藏层相加,得到当前序列文本的上下文特征;
[0013]S3、获得前位置字符的标签:该部分将上一步得到的当前序列文本的上下文特征输入到条件随机场模型中,得到当前位置字符的标签概率,从而得到当前位置字符的标签。
[0014]优选的,所述步骤S1中需要对原始数据集进行数据预处理,采用BIO标注策略,BIO 标注将每个字标注为“B

X”、“I

X”或“O”,“B

X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I

X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
[0015]优选的,所述步骤S21中需要计算输入门i
t
、遗忘门f
t
和输出门o
t

[0016]S211、门的计算主要依靠函数sigmoid,sigmoid函数将变量控制到0和1之间,为0 时表示门完全关闭,为1时表示门完全打开,门的输入由当前输入x
t
、上一个隐藏层和上一个细胞状态C
t
‑1控制;
[0017]S212、在门中加入细胞状态主要是因为当上一时刻的输出门o
t
‑1关闭时,上一时刻的隐藏层输出为0,则当前时刻的遗忘门、输入门和输出门都只依赖于当前时刻输入x
t
,这显然不符合长期记忆的要求;
[0018]S213、各种门以及新信息的计算公式如下:
[0019][0020][0021][0022][0023][0024][0025][0026]其中x
t
表示当前信息,W表示权重矩阵,b表示偏置,σ表示sigmoid函数,表示上一层的隐藏层信息,i
t
是输入门,是待处理的新信息,表示经过输入门处理后的新信息,f
t
是遗忘门,C
t
表示新信息,o
t
是输出门。
[0027]优选的,所述步骤S2中得到了当前序列文本的上下文特征,在步骤S3中将得到的上下文特征输入到条件随机场模型中得到当前字符对应的标签概率,根据标签概率的大小得到具体的标签;
[0028]条件随机场的参数化定义为:
[0029][0030][0031]其中,t
k
和s
l
是特征函数,它们是二值函数,函数值为0或者1,满足条件时为1,否则为0,t
k
是定义在边上的特征函数,依赖于当前和前一个位置,s
l
是定义在节点上的特征函数,依赖于当前位置。λ
k
和μ
l
是对应的权值,Z(x)是规范化因子,是对所有可能的输出序列上进行求和。
[0032]本专利技术的技术效果和优点:
[0033]本专利技术提出的RFLSTM模型主要是考虑到下面的情况:有A,B两个信息,A信息是我们记忆的信息,B信息是我们新输入的信息,B信息会和A信息产生关联,A信息将会被遗忘门丢弃;在上述情况下,如果先经过遗忘门的话,A信息会被丢弃,此时再经过输入门,B 信息加入进来,因为B信息和A信息是有联系的,A信息此时应该被记忆,但是因为先经过遗忘门,A信息已经被丢失,导致最终记忆的信息只有B信息;考虑到上述情况,本文将输入门设置在前面,防止遗忘门丢弃可能会与当前信息产生关联的信息,由于改进后的模型输入门在前,即先进行记忆,因此本文将改进后的LSTM模型命名为RFLSTM。
附图说明
[0034]为了更清楚说明本专利技术提出的命名实体识别算法,下面给出该算法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于循环神经网络的命名实体识别方法,具体包括如下步骤:S1、首先对命名实体识别任务数据集中的数据进行整理,统计出数据集中实体的类型,并采用BIO标注策略进行数据预处理,处理后的数据分为两列,第一列为数据集中的字符,第二列为对应的标注标签;S2、获取当前序列文本的上下文特征:S21、设置输入门i
t
、遗忘门f
t
和输出门o
t
,三种门都是由当前输入x
t
、上一个隐藏层和上一个细胞状态C
t
‑1控制的;S22、首先由x
t
和输入门i
t
得到新信息C
new
;S23、新信息再与上一个细胞状态C
t
‑1融合,得到融合后的新信息,再经过遗忘门f
t
,得到遗忘后的新信息;S24、再与前面的新信息C
new
融合得到当前的细胞状态C
t
,当前细胞状态再经过输出门控制得到当前隐藏层的输出当前序列文本的特征,此时得到的从前往后的序列文本特征,要想获得文本的上下文特征信息,还需要从后往前计算一遍,将两遍得到的隐藏层相加,得到当前序列文本的上下文特征;S3、获得前位置字符的标签:该部分将上一步得到的当前序列文本的上下文特征输入到条件随机场模型中,得到当前位置字符的标签概率,从而得到当前位置字符的标签。2.根据权利要求1所述的一种基于循环神经网络的命名实体识别方法,其特征在于,所述步骤S1中需要对原始数据集进行数据预处理,采用BIO标注策略,BIO标注将每个字标注为“B

X”、“I

X”或“O”,“B

X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I

X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。3.根据权利要求1所述的一种基于循环神经网络的命名实体识别方法,其特征在于,所述步骤S21中需要计算输入门i
...

【专利技术属性】
技术研发人员:刘杰陈斌
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1