【技术实现步骤摘要】
一种基于文本语序和多任务学习的医学命名实体识别方法
[0001]本专利技术涉及医学信息处理
,具体涉及一种基于文本语序和多任务学习的医学命名实体识别方法。
技术介绍
[0002]在指数级增长的生物医学文献中提取高质量信息,一直是巨大的挑战,而生物医学命名实体识别是其中的关键任务。生物医学命名实体识别旨在从非结构化的生物医学文本中提取例如基因、蛋白质、疾病及药物等有医学价值的实体,以此节省研究人员的阅读时间、提高研究效率,并在关系抽取,事件提取,智能问答等方面有着广阔的应用场景。
技术实现思路
[0003]本专利技术的目的在于,提供一种基于文本语序和多任务学习的医学命名实体识别方法,实现了在医学新闻文本中快速准确抽取关键医学命名实体的功能,并将这种医学命名实体转换成结构化数据。
[0004]为实现上述目的,一种基于文本语序和多任务学习的医学命名实体识别方法,包括:
[0005]步骤1:爬取医学新闻中的生物医学文本,对包含多种类别医学命名实体数据进行预处理;
[0006]步骤2:基于doccano标注工具以及正则查找等方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,并按单词整理成Begin、Inside、Other序列格式;
[0007]步骤3:将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,提取出单词在泛文本中的特征;
[0008]步骤4:将词嵌入送入Boundary a ...
【技术保护点】
【技术特征摘要】
1.一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,包括:步骤1:爬取医学新闻中的生物医学文本,对包含多种类别医学命名实体数据进行预处理;步骤2:基于doccano标注工具以及正则查找方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,并按单词整理成Begin、Inside、Other序列格式;步骤3:将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,提取出单词在泛文本中的特征;步骤4:将词嵌入送入BOAT模型,使模型感知上下文信息,提取出单词间的关联特征;步骤5:将提取到的关联特征同时送入序列标注分类器和头尾指针分类器中,分别预测单词的序列标签和实体的头尾标签;步骤6:对比所述序列标注分类器和头尾指针分类器的分类结果与真实标签的差异,得到损失值,以此训练PubMedBERT模型及BOAT模型,并保存效果最佳的模型;步骤7:加载训练完成的模型,将待预测的文本传入模型判断其存在的医学实体。2.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,对包含多种类别医学命名实体数据进行预处理,具体为:对生物医学文本数据进行筛选,删除文本数据中的乱码以及残缺不全的句子。3.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,基于doccano标注工具以及正则查找方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,具体为:在PubMed数据库中获取医学名词相关数据,其中医学名词类型包括基因、蛋白质、靶点;使用这些带有类别标签的医学名词标注生物医学文本:对于长度等于1的实体标注标签为“B
‑
实体类别”;对于长度大于1的实体,实体头标注为“B
‑
实体类别”,实体后续位置标注为“I
‑
实体类别”;对于非实体单词采用“O”标签标注。4.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,具体为:将生物医学文本进行分词、编码后送入基于生物医学数据集预训练的PubMedBERT模型,将PubMedBERT最后四个Transformer Encoder层输出的求和平均值作为生物医学文本的词嵌入表示。5.根据权利要求1所述一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,将词嵌入送入BOAT模型,使模型感知上下文信息,提取出单词间的关联特征,具体为:PubMedBERT预训练模型输出的文本嵌入矩阵E后,将其送入h组参数矩阵W
Q
,W
K
,W
V
,以此投影到不同的向量空间,分别获得了每组注意力头的查询、键和值矩阵:Q,K,V=EW
Q
,EW
K
,EW
V
(1)其中,h为注意力头的数量;l为序列长度,d
model
为PubMedBERT输出的文本嵌入维度;W
Q
,W
K
,W
V
采用相同的维度,均为采用相同的维度,均为为全体实数集合;d
k
是超参数,且
得到三种不同的词嵌入特征映射后,使用相对位置编码方式获得序列内单词间相互作用的特征矩阵,即单个注意力头;具体来说,在一个输入序列中x
a
和x
b
是位于该序列段X内的不同token,a和b分别为x
a
和x
b
的索引;为了让处于同一序列段内的不同token能注意到彼此的距离和相对方向,在注意力分数计算公式中融入相对位置编码;x
a
和x
b
相对注意力分数公式如下:公式如下:公式如下:公式如下:其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。