当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于文本语序和多任务学习的医学命名实体识别方法技术

技术编号:37551014 阅读:14 留言:0更新日期:2023-05-15 07:36
本发明专利技术公开了一种基于文本语序和多任务学习的医学命名实体识别方法,步骤1:爬取医学新闻中的生物医学文本;步骤2:使用PubMed数据库中的医学名词字典数据,标注生物医学文本;步骤3:使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示;步骤4:将词嵌入送入BOAT模型,使模型感知上下文信息;步骤5:分别预测单词的序列标签和实体的头尾标签;步骤6:对比所述序列标注分类器和头尾指针分类器的分类结果与真实标签的差异,得到损失值,以此训练PubMedBERT模型及BOAT模型;步骤7:将待预测的文本传入模型判断其存在的医学实体。本方法可以取得很好的实体识别效果,并极大的提升了实体识别速度,帮助医学研究人员快速阅读医学新闻,辅助医学研究工作。辅助医学研究工作。辅助医学研究工作。

【技术实现步骤摘要】
一种基于文本语序和多任务学习的医学命名实体识别方法


[0001]本专利技术涉及医学信息处理
,具体涉及一种基于文本语序和多任务学习的医学命名实体识别方法。

技术介绍

[0002]在指数级增长的生物医学文献中提取高质量信息,一直是巨大的挑战,而生物医学命名实体识别是其中的关键任务。生物医学命名实体识别旨在从非结构化的生物医学文本中提取例如基因、蛋白质、疾病及药物等有医学价值的实体,以此节省研究人员的阅读时间、提高研究效率,并在关系抽取,事件提取,智能问答等方面有着广阔的应用场景。

技术实现思路

[0003]本专利技术的目的在于,提供一种基于文本语序和多任务学习的医学命名实体识别方法,实现了在医学新闻文本中快速准确抽取关键医学命名实体的功能,并将这种医学命名实体转换成结构化数据。
[0004]为实现上述目的,一种基于文本语序和多任务学习的医学命名实体识别方法,包括:
[0005]步骤1:爬取医学新闻中的生物医学文本,对包含多种类别医学命名实体数据进行预处理;
[0006]步骤2:基于doccano标注工具以及正则查找等方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,并按单词整理成Begin、Inside、Other序列格式;
[0007]步骤3:将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,提取出单词在泛文本中的特征;
[0008]步骤4:将词嵌入送入Boundary and Order Aware Transformer(BOAT)模型,使模型感知上下文信息,提取出单词间的关联特征;
[0009]步骤5:将提取到的关联特征同时送入序列标注分类器和头尾指针分类器中,分别预测单词的序列标签和实体的头尾标签;
[0010]步骤6:对比所述序列标注分类器和头尾指针分类器的分类结果与真实标签的差异,得到损失值,以此训练PubMedBERT模型及BOAT模型,并保存效果最佳的模型;
[0011]步骤7:加载训练完成的模型,将待预测的文本传入模型判断其存在的医学实体。
[0012]进一步的,对包含多种类别医学命名实体数据进行预处理,具体为:对生物医学文本数据进行筛选,删除文本数据中的乱码以及残缺不全的句子。
[0013]进一步的,基于doccano标注工具以及正则查找等方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,具体为:
[0014]在PubMed数据库中获取医学名词相关数据,其中医学名词类型包括基因、蛋白质、靶点等;
[0015]使用这些带有类别标签的医学名词标注生物医学文本:对于长度等于1的实体标
注标签为“B

实体类别”;对于长度大于1的实体,实体头标注为“B

实体类别”,实体后续位置标注为“I

实体类别”;对于非实体单词采用“O”标签标注。
[0016]进一步的,将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,具体为:将生物医学文本进行分词、编码后送入基于生物医学数据集预训练的PubMedBERT模型,将PubMedBERT最后四个Transformer Encoder层输出的求和平均值作为生物医学文本的词嵌入表示。这种词嵌入基于泛医学文本训练的PubMedBERT得到,使得每个词的词嵌入能够有效表示该词在文中的具体含义。
[0017]进一步的,将词嵌入送入Boundary and Order Aware Transformer(BOAT)模型,使模型感知上下文信息,提取出单词间的关联特征,具体为:
[0018]PubMedBERT预训练模型输出的文本嵌入矩阵E后,将其送入h组参数矩阵W
Q
,W
K
,W
V
,以此投影到不同的向量空间,分别获得了每组注意力头的查询、键和值矩阵:
[0019]Q,K,V=EW
Q
,EW
K
,EW
V (1)
[0020]其中,h为注意力头的数量;l为序列长度,d
model
为PubMedBERT输出的文本嵌入维度;W
Q
,W
K
,W
V
采用相同的维度,均为为全体实数集合;d
k
是超参数,且
[0021]得到三种不同的词嵌入特征映射后,使用相对位置编码方式获得序列内单词间相互作用的特征矩阵,即单个注意力头;具体来说,在一个输入序列中x
a
和x
b
是位于该序列段X内的不同token,a和b分别为x
a
和x
b
的索引;为了让处于同一序列段内的不同token能注意到彼此的距离和相对方向,在注意力分数计算公式中融入相对位置编码;x
a
和x
b
相对注意力分数公式如下:
[0022][0023][0024][0025][0026]其中,P
(a

b,i)
表示在第i维之上位置a对位置b的正余弦信号,表示在第i维之上位置a对位置b的正余弦信号,表示x
a
对x
b
的相对位置编码;分别是键值矩阵和相对位置的偏置;
[0027][0028]如式(6)所示,P
(b

a,i)
表示在第i维上位置b对位置a的正余弦信号;因为sin(x)=

sin(

x),而cos(x)=cos(

x),这使得式(6)与式(2)的值互为相反数;这恰好表达了x
a
往x
b
的方向与x
b
往x
a
的方向相反这一特征,进而使得x
a
对x
b
注意力得分不同于x
b
对x
a
的注
意力得分而注意力分数的差异正好体现了模型对文本语序的理解。
[0029]将h个注意力头连接,再次进行投影,得到语序感知的多头注意力:
[0030]head=Attention(Q,K,V) (7)
[0031]MultiHead(Q,K,V)=Concat(head1,

,head
h
)W
O (8)
[0032]其中,W
O
是可学习的投影参数矩阵,且
[0033]更进一步的,使用权重分布更为合理的单隐藏层位置感知前馈网络进一步提取文本特征。因为生物医学文本标注数据集体量通常较小,且实体通常少量存在于文本中,过多不必要的权重不利于模型收敛。在前馈网络中,仅用一个可学习的参数矩阵就足以充本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,包括:步骤1:爬取医学新闻中的生物医学文本,对包含多种类别医学命名实体数据进行预处理;步骤2:基于doccano标注工具以及正则查找方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,并按单词整理成Begin、Inside、Other序列格式;步骤3:将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,提取出单词在泛文本中的特征;步骤4:将词嵌入送入BOAT模型,使模型感知上下文信息,提取出单词间的关联特征;步骤5:将提取到的关联特征同时送入序列标注分类器和头尾指针分类器中,分别预测单词的序列标签和实体的头尾标签;步骤6:对比所述序列标注分类器和头尾指针分类器的分类结果与真实标签的差异,得到损失值,以此训练PubMedBERT模型及BOAT模型,并保存效果最佳的模型;步骤7:加载训练完成的模型,将待预测的文本传入模型判断其存在的医学实体。2.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,对包含多种类别医学命名实体数据进行预处理,具体为:对生物医学文本数据进行筛选,删除文本数据中的乱码以及残缺不全的句子。3.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,基于doccano标注工具以及正则查找方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,具体为:在PubMed数据库中获取医学名词相关数据,其中医学名词类型包括基因、蛋白质、靶点;使用这些带有类别标签的医学名词标注生物医学文本:对于长度等于1的实体标注标签为“B

实体类别”;对于长度大于1的实体,实体头标注为“B

实体类别”,实体后续位置标注为“I

实体类别”;对于非实体单词采用“O”标签标注。4.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,具体为:将生物医学文本进行分词、编码后送入基于生物医学数据集预训练的PubMedBERT模型,将PubMedBERT最后四个Transformer Encoder层输出的求和平均值作为生物医学文本的词嵌入表示。5.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,将词嵌入送入BOAT模型,使模型感知上下文信息,提取出单词间的关联特征,具体为:PubMedBERT预训练模型输出的文本嵌入矩阵E后,将其送入h组参数矩阵W
Q
,W
K
,W
V
,以此投影到不同的向量空间,分别获得了每组注意力头的查询、键和值矩阵:Q,K,V=EW
Q
,EW
K
,EW
V
(1)其中,h为注意力头的数量;l为序列长度,d
model
为PubMedBERT输出的文本嵌入维度;W
Q
,W
K
,W
V
采用相同的维度,均为采用相同的维度,均为为全体实数集合;d
k
是超参数,且
得到三种不同的词嵌入特征映射后,使用相对位置编码方式获得序列内单词间相互作用的特征矩阵,即单个注意力头;具体来说,在一个输入序列中x
a
和x
b
是位于该序列段X内的不同token,a和b分别为x
a
和x
b
的索引;为了让处于同一序列段内的不同token能注意到彼此的距离和相对方向,在注意力分数计算公式中融入相对位置编码;x
a
和x
b
相对注意力分数公式如下:公式如下:公式如下:公式如下:其...

【专利技术属性】
技术研发人员:车超刘卓亚
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1