一种基于训练模型的医疗领域实体及关系抽取方法技术

技术编号:38126621 阅读:16 留言:0更新日期:2023-07-08 09:31
本发明专利技术提出了一种基于预训练模型的医疗领域实体及关系抽取方法,所述方法包括以下步骤:首先基于自定义规则构建医疗领域本体,从不同结构的数据源中提取相关知识,自定义一些规则过滤掉收集到的知识中不属于医疗领域的文本知识,形成本医疗领域的本体;然后基于BioBERT

【技术实现步骤摘要】
一种基于训练模型的医疗领域实体及关系抽取方法


[0001]本专利技术涉及一种基于训练模型的医疗领域实体及关系抽取方法,属于自然语言处理领域。

技术介绍

[0002]实体抽取也叫命名实体识别,是指在非结构化的自然语言文本中提取命名实体,并将其分类到提前预定好的类别中。关系抽取旨在提取实体之间存在的语义关系,如实体“成都”和实体“四川”它们的关系是“省会”。
[0003]传统的实体抽取技术都是基于“基于词典”或“有监督”的方法,所构建的知识图谱将无法适应新问题领域中的新词汇。例如,当构建一个新型冠状病毒的知识图谱时,它不能用预先建立的字典或数据集来构建,也不能频发的更新构建好的知识图谱。因此,当将像新型冠状病毒这样医疗领域的新词添加到现有知识图谱时,传统方法是很难实现的。要构建医疗领域的知识图谱,要解决的主要问题有:准确识别医疗领域实体;准确提取医疗领域实体之间的关系;生成医疗领域三元组以供构建医疗领域知识图谱。

技术实现思路

[0004]本专利技术提出一种基于预训练模型的医疗领域实体及关系抽取方法。本专利技术的目的在于准确识别医疗领域实体,准确提取医疗领域实体之间的关系,生成医疗领域三元组以供构建医疗领域知识图谱。
[0005]本专利技术技术方案如下:
[0006]首先基于自定义规则构建医疗领域本体,从不同结构的数据源中提取相关知识,自定义一些规则过滤掉收集到的知识中不属于医疗领域的文本知识,形成本医疗领域的本体;
[0007]然后基于BioBERT

BiLSTM

CRF算法(BBC算法)进行医疗领域实体抽取,选择BioBERT模型作为词向量获取的特征表示层,BiLSTM模型用于深入学习医疗领域的全文特征信息,BiLSTM模型的输出序列在CRF算法层进行处理,并与CRF算法相结合,基于两个邻居之间的标签获得最优序列。
[0008]最后基于BioBERT

BiLSTM

AttCRF(BBAttC算法)进行医疗领域实体关系抽取。为了使模型能关注想要的重要信息,引入注意力机制。将上层的出层做本层的输入层,计算各个单词的注意力分数,实现重要信息的关注,且能提出实体之间的关系。
[0009]本专利技术的有益效果为:传统的实体抽取技术都是基于“基于词典”或“有监督”的方法,所构建的知识图谱将无法适应新问题领域中的新词汇。本专利技术可以更准确地识别医疗领域实体,更准确地提取医疗领域实体之间的关系,从而生成医疗领域三元组以供构建医疗领域知识图谱。
[0010]附图和附表说明
[0011]图1为本专利技术的算法整体框图;
[0012]图2为基于MeSH获取医疗领域本体;
[0013]图3为非结构数据爬取流程;
[0014]图4为BERT嵌入层示意图;
[0015]图5为LSTM模型结构;
[0016]图6为基于联合预训练模型的医疗领域实体及关系抽取模型的整体结构;
[0017]图7为传统Encoder

Decoder框架;
[0018]图8为引入注意力机制后的Encoder

Decoder框架。
具体实施方式
[0019]下面将会描述该算法的思路,并给出算法的具体步骤。
[0020]步骤一:基于自定义规则构建医疗领域本体。
[0021]基于自定义规则的医疗领域本体构建技术分为两步:基于结构化MeCH知识库的医疗领域本体生成;基于自定义规则的非结构化医疗领域文本知识处理。
[0022]从结构化数据获取医疗领域本体方式有很多,本步骤针对新型冠状病毒构建本体(医疗领域)从医学主题词表(Medical Subject Headings,(MeSH)2)获取本体,(MeSH)2是由美国国立医学图书馆(NLM)出版,是目前最权威最常用的标准医学主体词表,由23887个词和词组组成。(MeSH)2由字顺表、树状结构表(范畴表,Tree structure)、副关键词表和主题词表四部分组成。基于结构化MeSH获取医疗领域本体流程如图2所示。
[0023]基于非结构化医疗领域文本知识处理,主要是通过爬虫技术,从维基百科等网站爬取医疗相关的非结构化数据,并对文本数据进行关键信息提取,流程如图3所示。
[0024]为了构建新型冠状病毒本体,本步骤定义了各种过滤器,因为爬取的中文数据可以利用LTP处理,所以提出的规则仅正对爬取的英文数据。如基于类别或信息内容的过滤器,并将过滤器应用到所有候选数据,包括从维基百科中的冠状病毒篇文章中提取所有候选项。定义过滤规则来除与新型冠状病毒无关的一般术语,并将这些规则应用到所有候选实体,构建新型冠状病毒实体字典。过滤类型包括:使用文章类型或者标题进行筛选,即当文章标题或类型不符合新型冠状病毒,则删除;过若一个本体字数超过一定字数,则删除。
[0025]步骤二:基于BioBERT

BiLSTM

CRF算法进行医疗领域实体抽取。
[0026]Google在2018年开源的BERT模型,直接用它去做医疗领域命名实体识别效果一定不会太好,因为通用医疗领域预训练模型中不包含医疗领域的新词,对于医学领域,“儿童感冒”通用医疗领域BERT会识别为:“儿童”和“感冒”。
[0027]BioBERT是在继承通用BERT参数权重的基础上,在生物医药领域语料(包括PUBMED摘要和PMC全文)上继续预训练。词表继承BERT的词表,为了解决未登录词的问题,使用Wordpiece的策略;该医疗领域特定的预训练模型可用于命名实体识别、关系提取和问答系统等任务。从结果来看,BioBERT的效果好于通用BERT。
[0028]针对模型的特点,提出模型BioBERT+BiLSTM+CRF用于医疗领域实体识别,选择BioBERT模型作为词向量获取的特征表示层,使得在后面的BiLSTM层更加关注新型冠状病毒类的词语。BiLSTM模型用于深入学习医疗领域的全文特征信息,称为实体识别。BiLSTM模型的输出序列在CRF算法层进行处理,并与CRF算法相结合。BioBERT

BiLSTM

CRF算法训练流程如表1所示。
[0029]1)输入层编码层
[0030]与大多数深度学习模型一样,BERT的输入层有三层,即字向量(Token)、位置向量(Position)和句子向量(Segment),BERT将每个输入文本中的单词通过标记嵌入层进行传递,以便将每个Token转为向量的形式,所以BERT的输入层也叫嵌入层。BERT模型嵌入层示意图如图4所示。
[0031]所以当输入文本后,会有三种表示向量:
[0032]1.Token Embedding:维度为<1,n,768>,表示单词向量;
[0033]2.Segment Embedding:维度为&a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的医疗领域实体及关系抽取方法,该方法包括以下步骤:步骤1:首先基于自定义规则构建医疗领域本体。先从不同结构的数据源中提取相关知识,再自定义一些规则过滤掉收集到的知识中不属于医疗领域的文本知识,从而形成医疗领域的本体。用于知识提取的数据源通常有三种:结构化数据(如关系型数据库)、半结构化数据(如网页中的数据)和非结构化数据(如纯文本数据)。步骤2:基于BioBERT

BiLSTM

CRF算法(BBC算法)进行医疗领域实体抽取。选择BioBERT模型作为词向量获取的特征表示层,BiLSTM模型用于深入学习医疗领域的全文特征信息,BiLSTM模型的输出序列在CRF算法层进行处理,并与CRF算法相结合,基于两个邻居之间的标签获得最优序列。步骤3:基于BioBERT

BiLSTM

AttCRF(BBAttC算法)进行医疗领域实体关系抽取。为了使模型能关注想要的重要信息,引入注意力机制。将上层的出层做本层的输入层,计算各个单词的注意力分数,实现重要信息的关注,且能提出实体之间的关系。2.如权利要求1所属方法,其特征在于,步骤1提出一种基于自定义规则的医疗领域本体构建方法。基于自定义规则的医疗领域本体构建技术分为两步:基于结构化MeCH知识库的医疗领域本体生成;基于自定义规则的非结构化医疗领域文本知识处理。对结构化数据,本步骤针对新型冠状病毒构建本体(医疗领域)从医...

【专利技术属性】
技术研发人员:周焕来李嘉豪唐小龙许文波贾海涛李金润谭志昊张博阳
申请(专利权)人:成都量子矩阵科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1