一种基于注意力状态转移模型的生物嵌套命名实体识别方法技术

技术编号:34852934 阅读:46 留言:0更新日期:2022-09-08 07:53
一种基于注意力状态转移模型的生物嵌套命名实体识别方法,包括:1.将包含DNA、RNA、蛋白质、细胞系和细胞这五种类型实体标签的生物领域文本分为训练数据和测试数据;2.根据注意力状态转移模型和语义遮罩模型的输入形式,将训练数据调整为满足模型输入的形式;3.训练注意力状态转移模型,用来学习词与词之间的关联性,通过模型输出的状态可以从文本中提取出候选实体并判断其类型;4.训练语义遮罩模型,用来判断候选实体及其类型是否符合上下文语义;5.将测试数据输入到注意力状态转移模型中,提取出候选实体,随后将提取的实体进行遮罩,送入到语义遮罩模型中进行筛选,最终确认出符合上下文的真实实体。上下文的真实实体。上下文的真实实体。

【技术实现步骤摘要】
一种基于注意力状态转移模型的生物嵌套命名实体识别方法


[0001]本专利技术涉及一种基于注意力状态转移模型的生物嵌套命名实体识别方法,特别是针对DNA、RNA、蛋白质、细胞系和细胞这五种类型实体的识别。对于生物领域文本,以句子为单位送入模型,模型会遍历句子中的每一个单词来调整模型的状态,模型的输出即模型状态转移的信息会识别出句子中的候选实体及其类型,最后通过语义遮罩模型判断候选实体是否满足上下文信息,得到最后的实体及其类型,其中的实体包含嵌套实体或者长实体。

技术介绍

[0002]随着生物研究的进展,积累了越来越多与生物相关的文本,对文本进行自动化处理的文本挖掘技术变得越来越重要,其中一项非常基础且重要的任务是生物命名实体识别。通过命名实体识别技术,可以有效的提取出生物文本中的有关生物领域的实体名称,比如DNA、RNA、蛋白质、细胞系和细胞这五个类型的实体。由于在实体与实体之间还存在一些嵌套的情况,这使得通过人工提取的效率不高,成本巨大且提取出的实体结果会受到人为因素的影响导致提取错误,同时嵌套实体的识别也会给提取增加一定的难度。因此,利用深度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于注意力状态转移模型的生物嵌套命名实体识别方法,包含以下步骤:步骤1:将包含DNA、RNA、蛋白质、细胞系和细胞这五种类型实体标签的生物领域文本分为训练数据和测试数据;步骤2:根据注意力状态转移模型和语义遮罩模型的输入形式,将训练数据调整为满足模型输入的形式;注意力状态转移模型的输入是模型的状态,将其定义为一个元组(B1,S1,S2,B2),其中B1、B2表示两个队列,用其作为缓冲区(Buffer)来存储上下文信息,S1、S2表示堆栈(Stack),用来存储当前状态下模型需要判断的词;其中S2结构仅存放一个词来用于单个词是否构成实体的判断,S1结构中存放与S2可能构成实体的单词;通过字典{'buffer1':[],'stack1':[],'stack2':[],'buffer2':[]}存放句子中的词来表示当前模型的状态;根据句子中实体及其类型生成注意力状态转移模型数据集的正例,当S1中单个词构成实体或S1与S2中的词构成时,模型的输出标签为其实体的类型,当S1中的词与S2中的词有关联但并没有构成一个完整的实体,用

correlation

作为模型的输出标签;随机抽取非实体的词生成注意力状态转移模型数据集的负例,用

not

表示负样例的标签;语义遮罩模型的输入为用特殊标识符将原始句子与遮罩后句子间隔开的句子,遮罩的句子是在原始句子的基础上,将原始句子中的类型实体用其类型标识符进行替换;根据句子中实体及其类型生成语义遮罩模型数据集的正例,随机抽取非实体的词生成注意力状态转移模型数据集的负例;步骤3:训练注意力状态转移模型,用来学习词与词之间的关联性,通过模型输出的状态可以从文本中提取出候选实体并判断其类型;通过拼接上下文表示非上下文表示和字符级表示作为当前词的词向量作为当前词的词向量其中,通过预训练模型获得;非上下文表示通过预训练的Wordvecs获得;是单词中的每个字符通过BiLSTM模型生成而来;[;]表示向量的拼接操作;B1、B2的状态表示β1、β2都是通过单向LSTM模型对结构中的词向量进行特征提取获得的;的;其中,表示B1中第i个词的d维向量表示,表示B2中第i个词的d维向量表示;对于单个词的类型判断,S1的状态表示S1也是通过单向LSTM模型对结构中的词向量进行特征提取获得的;其中,表示S1中第i个词的d维向量表示;
S2的状态表示S2是表示S2中单词的d维向量表示;对于多个词的类型判断,由于模型需要关注到S1与S2两个结构中词的关联性,引入了注意力机制;其中,表示缩放因子,用于优化点积注意力的缺陷,将值缩放到softmax函数变化最大的区域,放大差距;此时S1的状态表示S1是对S1与S2中词向量进行关注并通过LSTM的结果,S2的状态表示S2是对S2与S1中词向量进行关注的结果;S1=LSTM(Attention(S
′1,S
′2))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)S2=Attention(S
′2,S
′1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中,表示S1中h个词的词向量所构成的矩阵,表示S2中词的词向量词向量所构成的矩阵;整个模型的状态表示为由4个结构的状态表示拼接而成;P
k
=[β1;S1;S2;β2]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)得到模型的状态表示P
k
后,会通过多层感知器MLP进行分类,将分类结果为实体类型的词作为候选实体;步骤4:训练语义遮罩模型,用来判...

【专利技术属性】
技术研发人员:高楠杨博威王永健陈朋
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1