一种基于训练模型的医疗领域实体及关系抽取方法技术

技术编号：38126621 阅读：16 留言：0更新日期：2023-07-08 09:31

本发明专利技术提出了一种基于预训练模型的医疗领域实体及关系抽取方法，所述方法包括以下步骤：首先基于自定义规则构建医疗领域本体，从不同结构的数据源中提取相关知识，自定义一些规则过滤掉收集到的知识中不属于医疗领域的文本知识，形成本医疗领域的本体；然后基于BioBERT

全部详细技术资料下载

【技术实现步骤摘要】
一种基于训练模型的医疗领域实体及关系抽取方法

[0001]本专利技术涉及一种基于训练模型的医疗领域实体及关系抽取方法，属于自然语言处理领域。

技术介绍

[0002]实体抽取也叫命名实体识别，是指在非结构化的自然语言文本中提取命名实体，并将其分类到提前预定好的类别中。关系抽取旨在提取实体之间存在的语义关系，如实体“成都”和实体“四川”它们的关系是“省会”。
[0003]传统的实体抽取技术都是基于“基于词典”或“有监督”的方法，所构建的知识图谱将无法适应新问题领域中的新词汇。例如，当构建一个新型冠状病毒的知识图谱时，它不能用预先建立的字典或数据集来构建，也不能频发的更新构建好的知识图谱。因此，当将像新型冠状病毒这样医疗领域的新词添加到现有知识图谱时，传统方法是很难实现的。要构建医疗领域的知识图谱，要解决的主要问题有：准确识别医疗领域实体；准确提取医疗领域实体之间的关系；生成医疗领域三元组以供构建医疗领域知识图谱。

技术实现思路

[0004]本专利技术提出一种基于预训练模型的医疗领域实体及关系抽取方法。本专利技术的目的在于准确识别医疗领域实体，准确提取医疗领域实体之间的关系，生成医疗领域三元组以供构建医疗领域知识图谱。
[0005]本专利技术技术方案如下：
[0006]首先基于自定义规则构建医疗领域本体，从不同结构的数据源中提取相关知识，自定义一些规则过滤掉收集到的知识中不属于医疗领域的文本知识，形成本医疗领域的本体；
[0007]然后基于BioBERT
‑
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的医疗领域实体及关系抽取方法，该方法包括以下步骤：步骤1：首先基于自定义规则构建医疗领域本体。先从不同结构的数据源中提取相关知识，再自定义一些规则过滤掉收集到的知识中不属于医疗领域的文本知识，从而形成医疗领域的本体。用于知识提取的数据源通常有三种：结构化数据(如关系型数据库)、半结构化数据(如网页中的数据)和非结构化数据(如纯文本数据)。步骤2：基于BioBERT
‑
BiLSTM
‑
CRF算法(BBC算法)进行医疗领域实体抽取。选择BioBERT模型作为词向量获取的特征表示层，BiLSTM模型用于深入学习医疗领域的全文特征信息，BiLSTM模型的输出序列在CRF算法层进行处理，并与CRF算法相结合，基于两个邻居之间的标签获得最优序列。步骤3：基于BioBERT
‑
BiLSTM
‑
AttCRF(BBAttC算法)进行医疗领域实体关系抽取。为了使模型能关注想要的重要信息，引入注意力机制。将上层的出层做本层的输入层，计算各个单词的注意力分数，实现重要信息的关注，且能提出实体之间的关系。2.如权利要求1所属方法，其特征在于，步骤1提出一种基于自定义规则的医疗领域本体构建方法。基于自定义规则的医疗领域本体构建技术分为两步：基于结构化MeCH知识库的医疗领域本体生成；基于自定义规则的非结构化医疗领域文本知识处理。对结构化数据，本步骤针对新型冠状病毒构建本体(医疗领域)从医...

【专利技术属性】
技术研发人员：周焕来，李嘉豪，唐小龙，许文波，贾海涛，李金润，谭志昊，张博阳，
申请(专利权)人：成都量子矩阵科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人