一种基于BERT模型的医疗文本关系抽取的方法技术

技术编号:25637086 阅读:11 留言:0更新日期:2020-09-15 21:29
一种基于BERT模型的医疗文本关系抽取的方法,包括以下步骤:步骤1:收集医疗文本,构建文本数据集;步骤2:对数据集进行预处理;步骤3:构建医疗文本关系抽取模型;步骤4:将抽取结果进行结构化存储。本发明专利技术提出一种基于BERT的医疗文本关系抽取的方法,采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对医疗文本,从医疗文本中提取出高层抽象属性。

【技术实现步骤摘要】
一种基于BERT模型的医疗文本关系抽取的方法
本专利技术涉及数据挖掘、网络科学、深度神经网络,特别是涉及一种基于BERT模型的医疗文本关系抽取的方法。
技术介绍
近年来,我国信息化建设越来越完善,医疗体系也逐渐进入信息化的时代。临床电子病历数据在不断的积累,并且这些临床病历数据已经成为医学研究领域的宝贵财富和重要的信息来源。目前,病历仍然以文本的数据形式存在。在医学临床诊疗过程中,病历的信息以文本或半结构化数据为主要记录形式。然而,病历文本是重要的医学诊疗知识来源,需要进行系统的数据处理和挖掘分析,形成具有理论和临床价值的诊疗知识,其中结构化信息的提取是实现数据挖掘分析的第一个关键环节,包括命名实体识别(NamedEntityRecognition,NER)和关系抽取(Relationshipextraction,RE)等基本步骤。关系抽取通常是指在已知文本中实体对的情况下,抽取实体间的命名关系,并将抽取出来的实体对和关系进行规范化表示,其一般的形式化描述为三元组的形式<E1,Rel,E2>,E1与E2代表实体,Rel代表实体间的关系.通过提取实体间关系,获取更多实体间的语义联系,可以帮助计算机更好的处理大规模网络文本数据,以及理解非结构化文本的语义信息,在自然语言处理领域具有广阔的应用前景。围绕着实体间关系的发现和抽取,不少学者都展开了深入的研究。目前关系抽取研究进展迅速,人们研究得出了大量不同的模型和方法.这些关系抽取方法大体上可以分为基于模式匹配的方法,基于机器学习的方法,和基于混合模型的方法。基于模式匹配的方法由专家预先依据限定领域实体关系的语法或语义信息人工制定出一套规则模板,并把测试文本中与模板语义相匹配的关系实例抽取出来。基于机器学习的方法利用各种统计学习的算法如支持向量机算法(supportvectormachine,SVM)和条件随机场(conditionalrandomfields,CRF)等,将关系抽取看作一个分类问题,从关系训练样例中抽取出特征进行学习,自动从测试语料中抽取关系。但是基于模式匹配效率低下,利用SVM的方法不适合处理大规模的关系抽取任务,利用CRF的方法难点在于如何获取高置信度的模式错误的模板会影响实体关系抽取的准确度。目前医疗领域关系抽取准确率仍然有较大的提高空间,因此多类型医学文本进行关系抽取的研究受到了越来越多的关注。综上,传统的关系抽取算法中存在的很多亟待解决的问题,包括大规模关系抽取任务的限制以及获取更好的抽取效果,尚无有效的解决办法。
技术实现思路
为了克服现有技术的不足,本专利技术提出一种基于BERT模型的医疗文本关系抽取方法,采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对医疗文本,从医疗文本中提取出高层抽象属性。本专利技术解决其技术问题所采用的技术方案如下:一种基于BERT模型的医疗文本关系抽取的方法,包括以下步骤:步骤1:收集医疗文本,构建文本数据集;步骤2:对数据集进行预处理;步骤3:构建医疗文本关系抽取模型;步骤4:将抽取结果进行结构化存储。进一步,所述步骤1中,收集医疗文本,所述行为数据每一条须包括两个实体,实体之间须有相应的关系,即构成三元组,每条数据至少要包含1个三元组。再进一步,所述步骤2中,根据步骤1中的收集的医疗文本数据集,进行实体抽取,抽取出实体后将其按照实体之间的关系进行整合,按照句号进行分句操作,送入医疗文本关系抽取模型中。所述步骤3中,构建医疗文本关系抽取模型包括以下过程:3.1)对训练集中每句话按照字进行划分,假设句子为x,则划分后得到序列表示x=[x0...xn],其中令x0=[CLS],xn=[SEP],x0,xn为字向量表征,在下文用token表示,a1=(i,j),a2=(k,l)为两个实体的token范围,其中0<i<j-1,j<k,k≤l-1,l≤n,两个实体之间的关系用三元组r=(x,a1,a2)表示,[xi...xj-1]为第一个实体,[xk...xl-1]为第二个实体;3.2)将两个实体前后添加标识符,则x的序列表示如下所示:x=[x0...[E1start]xi...xj-1[E1end]...[E2start]xk...xl-1[E2end]](1)其中[E1start]、[E2start]分别为两个实体的开始标识符,[E1end]、[E2end]为结束标识符;3.3)将上一步的tokens送入BERT模型,分别输出句子中各个汉字的字向量,其中xi所对应的生成向量为Vi,xj-1所对应的生成向量为Vj-1,则第一个实体所对应的向量为Vi到Vj-1,相应的,第二个实体所对应的向量为Vk到Vl-1。将BERT的[CLS]表征(V0)及两个实体(V1、V2)所对应的输出向量分别设为V′0,V′1,V′2,则V′0,V′1,V′2所对应的生成公式如下所示:V′0=W0[tanhV0]+b0(2)其中W0、W1、W2为权重系数,拥有着相同的维度,b0、b1、b2为偏置项,也拥有着相同的维度;3.4)将所求V′0、V′1、V′2进行拼接并送入全连接层中,最后进行分类,输出最终结果,全连接层及分类公式如下:c=W3[concat(V′0,V′1,V′2)]+b3(5)q=softmax(c)(6)其中W3为权重系数,与W0、W1、W2拥有着相同的维度;b3为偏置项,与b0、b1、b2拥有着相同的维度;concat表示拼接操作,softmax为softmax函数。所述步骤4中,将抽取结果进行结构化存储包括以下过程:4.1)训练好模型后将经过预处理的医疗文本(处理方法与步骤2相同)送入模型中;4.2)将模型输出结果按照对应关系送入MySQL数据库中,进行结构化存储。本专利技术的有益效果为:采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对医疗文本,从医疗文本中提取出高层抽象属性。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的对数据集进行预处理的流程图;图2为本专利技术实施例提供的构建医疗文本关系抽取模型的流程图;图3为本专利技术实施例提供的一种基于BERT模型的医疗文本关系抽取方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范本文档来自技高网
...

【技术保护点】
1.一种基于BERT的医疗文本关系抽取的方法,其特征在于,所述方法包括以下步骤:/n步骤1:收集医疗文本,构建文本数据集;/n步骤2:对数据集进行预处理;/n步骤3:构建医疗文本关系抽取模型;/n步骤4:将抽取结果进行结构化存储。/n

【技术特征摘要】
1.一种基于BERT的医疗文本关系抽取的方法,其特征在于,所述方法包括以下步骤:
步骤1:收集医疗文本,构建文本数据集;
步骤2:对数据集进行预处理;
步骤3:构建医疗文本关系抽取模型;
步骤4:将抽取结果进行结构化存储。


2.如权利要求1所述的一种基于BERT的医疗文本关系抽取的方法,其特征在于:所述步骤1中,收集医疗文本,所述行为数据每一条须包括两个实体,实体之间须有相应的关系,即构成三元组,每条数据至少要包含1个三元组。


3.如权利要求1或2所述的一种基于BERT的医疗文本关系抽取的方法,其特征在于:所述步骤2中,根据步骤1中的收集的医疗文本数据集,进行实体抽取,抽取出实体后将其按照实体之间的关系进行整合,按照句号进行分句操作,送入医疗文本关系抽取模型中。


4.如权利要求3所述的一种基于BERT的医疗文本关系抽取的方法,其特征在于:所述步骤3中,构建医疗文本关系抽取模型包括以下过程:
3.1)对训练集中每句话按照字进行划分,假设句子为x,则划分后得到序列表示x=[x0…xn],其中令x0=[CLS],xn=[SEP],x0,xn为字向量表征,用token表示;a1=(i,j),a2=(k,l)为两个实体的token范围,其中0<i<j-1,j<k,k≤l-1,l≤n,两个实体之间的关系用三元组r=(x,a1,a2)表示,[xi…xj-1]为第一个实体,[xk…xl-1]为第二个实体;
3.2)将两个实体前后添加标识符,则x的序列表示如下所示:
x=[x0…[E1start]xi…xj-1[E1end]…[E2star...

【专利技术属性】
技术研发人员:宣琦王冠华俞山青俞立
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1