医疗信息抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38573729 阅读:11 留言:0更新日期:2023-08-22 21:07
本发明专利技术涉及一种医疗信息抽取方法、装置、电子设备及存储介质,包括:获取第一文本数据,第一文本数据为病历文本。调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,第一矩阵和第二矩阵均为整数矩阵,并分别用于提取病历文本中的医学实体和实体关系。通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,第一序列用于作为条件随机场的输入序列,以获取条件随机场输出的第二序列。调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,第三矩阵用于获取第一文本数据对应的多元组短语。减少了命名实体与实体关系抽取串行的情况。减少了命名实体与实体关系抽取串行的情况。减少了命名实体与实体关系抽取串行的情况。

【技术实现步骤摘要】
医疗信息抽取方法、装置、电子设备及存储介质


[0001]本专利技术涉及医疗辅助
,特别是涉及一种医疗信息抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着医院信息化的飞速发展,积累的医疗数据越来越多,其中最基础的医疗数据就是电子病历。电子病历包含有丰富的医疗数据,其中部分为非结构化文本数据,而文本数据准确的归一化对实现临床决策辅助系统、内涵质控以及鉴别诊断等应用能够提供重要的帮助。文本数据的归一化处理离不开医学实体识别和医学实体关系的识别,其中医学实体关系识别是指从电子病历中提取解剖部位、诊断、肿瘤分期等医学实体提取后,提取多个医学实体之间建立的关系进而组成富有意义的短语。
[0003]常用的医学实体关系识别提取方法主要是基于深度学习实现的,主要运用到的模型为CNN(卷积神经网络)和LSTM(长短期记忆网络)的分类。Google开源BERT(Bidirectional Encoder Representations from Transformers,预训练语言模型)后,预训练语言模型逐渐成为NLP(Natural Language Processing,自然语言处理)的主流方法,命名实体识别、关系、智能问答等领域开始采用BERT作为特征提取的方法,其效果远高于CNN以及LSTM等深度学习模型,例如CNN作为实体识别和关系抽取任务的基线(baseline)。
[0004]目前,现有的医疗信息抽取方法主要是通过使用串行的流水线(pipeline)方式,先做命名实体任务,然后再做关系识别任务。所使用模型主要为BERT模型,并基于BERT模型做一些微调。在做命名实体任务时,采用序列标注的方法,例如BIO方法,将每个元素标注为“B

X”、“I

X”或者“O”,其中“B

X”标注的元素在对应片段的开头位置,“I

X”标注的元素在该片段的中间位置,“O”标注的元素表示不属于任何类型。但是,这种序列标注的方法较难解决实体嵌套的片段,如“头晕”短语,“头晕”为主体词,“头”为解剖部位。其次,针对命名实体识别的结果,再进行关系识别处理,以组成多元组的短语,如:(腋窝,淋巴结,可见)、(腹股沟区淋巴结,可见),使用流水线(pipeline)方式,易出现命名实体和实体关系抽取串行的情况,且推理速度较慢。
[0005]综上所述,现有的医疗信息抽取方法易出现命名实体与实体关系抽取串行的情况且推理速度较慢。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种能够减少命名实体与实体关系抽取串行的情况发生且能够提高模型推理速度的医疗信息抽取方法、装置、电子设备及存储介质。
[0007]本专利技术提供了一种医疗信息抽取方法,所述方法包括:
[0008]获取第一文本数据,所述第一文本数据为病历文本;
[0009]调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和
第二嵌入层对应的第一矩阵和第二矩阵,其中,所述第一矩阵和第二矩阵均为整数矩阵,并分别用于提取所述病历文本中的医学实体和实体关系;
[0010]通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,所述第一序列用于作为条件随机场的输入序列,以获取所述条件随机场输出的第二序列;
[0011]调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,所述第三矩阵用于获取所述第一文本数据对应的多元组短语。
[0012]在其中一个实施例中,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,包括:
[0013]将所述BERT模型中的浮点型运算转化为整数运算,以使所述BERT模型中的权重浮点和输入浮点均转化为整数型;
[0014]调用所述BERT模型对所述第一文本数据进行整数运算,以获取所述第一矩阵和第二矩阵。
[0015]在其中一个实施例中,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,还包括:
[0016]通过类型映射将输入所述BERT模型的第一文本数据以及所述BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据;
[0017]将所述第一输入数据输入所述整数矩阵运算单元,以获取所述整数矩阵运算单元的第一输出数据;
[0018]基于所述第一输出数据,通过类型反映射获取所述第一矩阵和第二矩阵。
[0019]在其中一个实施例中,所述通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,之后还包括:
[0020]调用条件随机场对所述第一序列进行赋值,所述赋值用于表征所述第一文本数据中不同医学实体之间的分布关系;
[0021]基于所述赋值,获取所述第二序列,所述第二序列为所述条件随机场的输出序列。
[0022]在其中一个实施例中,所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之前包括:
[0023]去除所述第一文本数据中的不具有语义信息的符号,以去除所述第二矩阵中的所述不具有语义信息的符号;
[0024]基于所述第二序列,获取相应的标注预测字,所述标注预测字包括标注数据及其对应的第四矩阵。
[0025]在其中一个实施例中,所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,包括:
[0026]调用所述concat函数对去除所述不具有语义信息的符号的所述第二矩阵以及标注预测字进行纵向合并;
[0027]基于所述纵向合并,获取所述第三矩阵,所述第三矩阵为整数矩阵。
[0028]在其中一个实施例中,所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之后包括:
[0029]调用所述多层感知机对所述第三矩阵进行识别,以获取相应的识别结果;
[0030]判断所述识别结果是否为多元组短语;若是,则
[0031]输出所述多元组短语;
[0032]其中,所述多元组短语用于表征所述医学实体以及所述医学实体之间的实体关系。
[0033]本专利技术还提供了一种医疗信息抽取装置,所述装置包括:
[0034]第一获取模块,用于获取第一文本数据,所述第一文本数据为病历文本;
[0035]模型处理模块,用于调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,所述第一矩阵和第二矩阵均为整数矩阵,并分别用于提取所述病历文本中的医学实体和实体关系;
[0036]多层感知机模块,用于通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,所述第一序列用于作为条件随机场的输入序列,以获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗信息抽取方法,其特征在于,所述方法包括:获取第一文本数据,所述第一文本数据为病历文本;调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,所述第一矩阵和第二矩阵均为整数矩阵,并分别用于提取所述病历文本中的医学实体和实体关系;通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,所述第一序列用于作为条件随机场的输入序列,以获取所述条件随机场输出的第二序列;调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,所述第三矩阵用于获取所述第一文本数据对应的多元组短语。2.根据权利要求1所述的医疗信息抽取方法,其特征在于,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,包括:将所述BERT模型中的浮点型运算转化为整数运算,以使所述BERT模型中的权重浮点和输入浮点均转化为整数型;调用所述BERT模型对所述第一文本数据进行整数运算,以获取所述第一矩阵和第二矩阵。3.根据权利要求2所述的医疗信息抽取方法,其特征在于,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,还包括:通过类型映射将输入所述BERT模型的第一文本数据以及所述BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据;将所述第一输入数据输入所述整数矩阵运算单元,以获取所述整数矩阵运算单元的第一输出数据;基于所述第一输出数据,通过类型反映射获取所述第一矩阵和第二矩阵。4.根据权利要求1所述的医疗信息抽取方法,其特征在于,所述通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,之后还包括:调用条件随机场对所述第一序列进行赋值,所述赋值用于表征所述第一文本数据中不同医学实体之间的分布关系;基于所述赋值,获取所述第二序列,所述第二序列为所述条件随机场的输出序列。5.根据权利要求4所述的医疗信息抽取方法,其特征在于,所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并...

【专利技术属性】
技术研发人员:李丽凌鸿顺张奇
申请(专利权)人:北京惠每云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1