一种基于BERT模型的医疗文本关系抽取的方法技术

技术编号：25637086 阅读：11 留言：0更新日期：2020-09-15 21:29

一种基于BERT模型的医疗文本关系抽取的方法，包括以下步骤：步骤1：收集医疗文本，构建文本数据集；步骤2：对数据集进行预处理；步骤3：构建医疗文本关系抽取模型；步骤4：将抽取结果进行结构化存储。本发明专利技术提出一种基于BERT的医疗文本关系抽取的方法，采用了以卷积神经网络和循环神经网络为代表的深度学习算法，主要针对医疗文本，从医疗文本中提取出高层抽象属性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT模型的医疗文本关系抽取的方法
本专利技术涉及数据挖掘、网络科学、深度神经网络，特别是涉及一种基于BERT模型的医疗文本关系抽取的方法。
技术介绍
近年来，我国信息化建设越来越完善，医疗体系也逐渐进入信息化的时代。临床电子病历数据在不断的积累，并且这些临床病历数据已经成为医学研究领域的宝贵财富和重要的信息来源。目前，病历仍然以文本的数据形式存在。在医学临床诊疗过程中，病历的信息以文本或半结构化数据为主要记录形式。然而，病历文本是重要的医学诊疗知识来源，需要进行系统的数据处理和挖掘分析，形成具有理论和临床价值的诊疗知识，其中结构化信息的提取是实现数据挖掘分析的第一个关键环节，包括命名实体识别(NamedEntityRecognition，NER)和关系抽取(Relationshipextraction，RE)等基本步骤。关系抽取通常是指在已知文本中实体对的情况下，抽取实体间的命名关系，并将抽取出来的实体对和关系进行规范化表示，其一般的形式化描述为三元组的形式<E1，Rel，E2>，E1与E2代表实体，Rel代表实体间的关系.通过提取实体间关系，获取更多实体间的语义联系，可以帮助计算机更好的处理大规模网络文本数据，以及理解非结构化文本的语义信息，在自然语言处理领域具有广阔的应用前景。围绕着实体间关系的发现和抽取，不少学者都展开了深入的研究。目前关系抽取研究进展迅速，人们研究得出了大量不同的模型和方法.这些关系抽取方法大体上可以分为基于模式匹配的方法，基于机器学习的方法，和基于混合...

【技术保护点】
1.一种基于BERT的医疗文本关系抽取的方法，其特征在于，所述方法包括以下步骤：/n步骤1：收集医疗文本，构建文本数据集；/n步骤2：对数据集进行预处理；/n步骤3：构建医疗文本关系抽取模型；/n步骤4：将抽取结果进行结构化存储。/n

【技术特征摘要】
1.一种基于BERT的医疗文本关系抽取的方法，其特征在于，所述方法包括以下步骤：
步骤1：收集医疗文本，构建文本数据集；
步骤2：对数据集进行预处理；
步骤3：构建医疗文本关系抽取模型；
步骤4：将抽取结果进行结构化存储。

2.如权利要求1所述的一种基于BERT的医疗文本关系抽取的方法，其特征在于：所述步骤1中，收集医疗文本，所述行为数据每一条须包括两个实体，实体之间须有相应的关系，即构成三元组，每条数据至少要包含1个三元组。

3.如权利要求1或2所述的一种基于BERT的医疗文本关系抽取的方法，其特征在于：所述步骤2中，根据步骤1中的收集的医疗文本数据集，进行实体抽取，抽取出实体后将其按照实体之间的关系进行整合，按照句号进行分句操作，送入医疗文本关系抽取模型中。

4.如权利要求3所述的一种基于BERT的医疗文本关系抽取的方法，其特征在于：所述步骤3中，构建医疗文本关系抽取模型包括以下过程：
3.1)对训练集中每句话按照字进行划分，假设句子为x，则划分后得到序列表示x＝[x0…xn],其中令x0＝[CLS],xn＝[SEP],x0,xn为字向量表征，用token表示；a1＝(i,j)，a2＝(k,l)为两个实体的token范围，其中0<i<j-1,j<k,k≤l-1,l≤n,两个实体之间的关系用三元组r＝(x,a1,a2)表示，[xi…xj-1]为第一个实体，[xk…xl-1]为第二个实体；
3.2)将两个实体前后添加标识符，则x的序列表示如下所示：
x＝[x0…[E1start]xi…xj-1[E1end]…[E2star...

【专利技术属性】
技术研发人员：宣琦，王冠华，俞山青，俞立，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人