病历文本中疾病实体和症状实体阴阳性的判别方法及装置制造方法及图纸

技术编号:32787003 阅读:17 留言:0更新日期:2022-03-23 19:47
本发明专利技术提供了病历文本中疾病和症状阴阳性的判断方法及装置,所述判断方法包括:获取目标病历文本中疾病实体和症状实体及对应的上下文信息;基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。本发明专利技术提供的技术方案可以避免依靠模板和词典方法受限于模板和词典规模、不能处理未预先定义情况的问题,同时也可以通过增加语料、更新训练两个阶段的模型来持续地提升判断的精确度。持续地提升判断的精确度。持续地提升判断的精确度。

【技术实现步骤摘要】
病历文本中疾病实体和症状实体阴阳性的判别方法及装置


[0001]本专利技术书一个或多个实施例涉及医疗诊断
,尤其涉及一种病历文本中疾病实体和症状实体阴阳性的判断方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]病历,是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程中所形成的资料的总和。而随着智能化时代的到来,疾病的诊疗也已经逐步开启了智能化时代,即利用现有的技术资料,以及患者的实际病情和相关数据,对患者的疾病进行辅助性的预测或辅助性的预诊断,从而为医护人员提供一定的帮助。
[0004]现有的阴阳性判断方法首先需要先构建阴阳性的不同出现情况的文本模板,然后通过关键词匹配和模板匹配的方式,对出现疾病和症状描述的文本片段进行判断,以模板匹配的结果来判断当前的疾病或者症状的描述的阴阳性。
[0005]目前识别文本中存在的疾病或者症状所需要的词表需要具有一定经验的专业人员进行搜索整理、构建较大的词典,并定期维护更新,耗时耗力。同时,判断阴阳性的文本模板也需要同样、甚至更大规模的整理和维护,且再出现模板之外的表达时不能正确做出判断,输出的结果完全依赖于词典和模板资源。

技术实现思路

[0006]本说明书一个或多个实施例描述了一种病历文本中疾病实体和症状实体阴阳性的判断方法、装置及系统,可以准确地识别目标医疗文本中的疾病和症状信息,并做出符合上下文语境的阴阳性判断。
[0007]本说明书一个或多个实施例提供的技术方案如下:
[0008]第一方面,本专利技术提供了病历文本中疾病实体和症状实体阴阳性的判断方法,所述判断方法包括:
[0009]获取目标病历文本中疾病实体和症状实体及对应的上下文信息;
[0010]基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。
[0011]在一个示例中,所述获取目标病历文本中疾病实体和症状实体及对应的上下文信息,包括以下步骤:
[0012]获得实体识别模型;
[0013]获得时间段切分模型;
[0014]利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和
症状实体及对应的上下文信息。
[0015]在一个示例中,所述获得实体识别模型,包括以下步骤:
[0016]收集病历文本,并标注所述病历文本中的疾病实体和症状实体;
[0017]将标注后的病历文本数据转换为BIO的标注形式;
[0018]将BIO标注形式的病历文本数据预训练得到的字向量初始化输入向量;
[0019]根据所述初始化的输入向量,使用基于LSTM单元的双向循环神经网络训练,得到实体识别模型。
[0020]在一个示例中,所述获得时间段切分模型,包括以下步骤:
[0021]对病历文本中的时间段进行划分处理;
[0022]将处理后的病历文本样本数据转换为BIO的标注形式;
[0023]将BIO标注形式的病历文本数据预训练得到的字向量初始化输入向量;
[0024]根据所述初始化的输入向量,使用基于LSTM单元的双向循环神经网络训练训练,得到时间段切分模型。
[0025]在一个示例中,所述利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息,包括以下步骤:
[0026]使用所述实体识别模型对目标病历文本进行预测,获得疾病实体和症状实体;
[0027]使用时间段切分模型对所述目标病历文本进行切分,将预测连续的时间段开头部分和时间段中间部分作为一个时间段中的文本内容;所述目标病历文本由不同的时间段的文本组成;
[0028]在所述目标病历文本中搜索所述疾病实体和症状实体;其中,所述疾病实体和症状实体分别存在于对应文本中;
[0029]将疾病实体及其对应文本和症状实体及其对应文本作为文本对,分别作为疾病实体及其对应的上下文信息和症状实体及其对应的上下文信息。
[0030]在一个示例中,基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性,包括以下步骤:
[0031]对所述疾病实体及其对应上下文信息和症状实体及其对应的上下文信息进行标注,获得疾病实体和症状实体的阴阳性信息,构建判断疾病实体和症状实体阴阳性的训练数据;所述标注的标签包括阳性、阴性和无法判断;
[0032]利用病历文本,获得预训练语言模型;
[0033]利用所述预训练语言模型,对构建的训练数据进行精调,获得目标病历文本中疾病实体和症状实体的阴阳性结果。
[0034]在一个示例中,所述利用所述预训练语言模型,对构建的训练数据进行精调,获得目标病历文本中疾病实体和症状实体的阴阳性结果,包括以下步骤:
[0035]标注后的训练数据由w和p拼接构成输入U=[u1,

,u
n
],并在源端输入的序列前添加标签[CLS];其中,w和p分别表示实体和上下文信息;
[0036]定义Trm()为BERT
bio
中的编码计算单元,每个字经过该编码单元得到编码表示,由以下公式计算:
[0037][0038]BERT
bio
取模型第一个[CLS]的隐层向量表示经过一层全连接线性变换:
[0039][0040]通过softmax给出目标医疗文本的概率分布:
[0041]Prob=softmax(C)
[0042]将最大概率作为实体的阴阳性识别结果。
[0043]第二方面,本专利技术提供了病历文本中疾病实体和症状实体阴阳性的判断装置,所述判断装置包括:
[0044]获取模块,用于获取目标病历文本中疾病实体和症状实体及对应的上下文信息;
[0045]判断模块,用于基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。
[0046]在一个示例中,所述获取模块包括:
[0047]第一获取单元,用于获得实体识别模型;
[0048]第二获取单元,用于获得时间段切分模型;
[0049]第三获取单元,用于利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息。
[0050]第三方面,本专利技术提供了病历文本中疾病实体和症状实体阴阳性的判断系统,该系统包括至少一个处理器和存储器;
[0051]所述存储器,用于存储一个或多个程序指令;
[0052]所述处理器,用于运行一个或多个程序指令,用以执行如第一方面中一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.病历文本中疾病和症状阴阳性的判断方法,其特征在于,所述判断方法包括:获取目标病历文本中疾病实体和症状实体及对应的上下文信息;基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。2.根据权利要求1所述的判断方法,其特征在于,所述获取目标病历文本中疾病实体和症状实体及对应的上下文信息,包括以下步骤:获得实体识别模型;获得时间段切分模型;利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息。3.根据权利要求2所述的判断方法,其特征在于,所述获得实体识别模型,包括以下步骤:收集病历文本,并标注所述病历文本中的疾病实体和症状实体;将标注后的病历文本数据转换为BIO的标注形式;将BIO标注形式的病历文本数据预训练得到的字向量初始化输入向量;根据所述初始化的输入向量,使用基于LSTM单元的双向循环神经网络训练,得到实体识别模型。4.根据权利要求2所述的判断方法,其特征在于,所述获得时间段切分模型,包括以下步骤:对病历文本中的时间段进行划分处理;将处理后的病历文本样本数据转换为BIO的标注形式;将BIO标注形式的病历文本数据预训练得到的字向量初始化输入向量;根据所述初始化的输入向量,使用基于LSTM单元的双向循环神经网络训练训练,得到时间段切分模型。5.根据权利要求2所述的判断方法,其特征在于,所述利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息,包括以下步骤:使用所述实体识别模型对目标病历文本进行预测,获得疾病实体和症状实体;使用时间段切分模型对所述目标病历文本进行切分,将预测连续的时间段开头部分和时间段中间部分作为一个时间段中的文本内容;所述目标病历文本由不同的时间段的文本组成;在所述目标病历文本中搜索所述疾病实体和症状实体;其中,所述疾病实体和症状实体分别存在于对应文本中;将疾病实体及其对应文本和症状实体及其对应文本作为文本对,分别作为疾病实体及其对应的上下文信息和症状实体及其对应的上下文信息。6.根据权利要求1所述的判断方法,其特征在于,基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性,包括以下步骤:对所述疾病实体及其对应上下文信息和症状实体及其对应的上下文信息进行标注,获得疾病实体和症状实体的阴阳性信息,构建判断疾...

【专利技术属性】
技术研发人员:刘畅王亦宁梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1