病历文本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27979810 阅读:17 留言:0更新日期:2021-04-06 14:15
本申请涉及一种病历文本处理方法、装置、计算机设备和存储介质,通过获取病历文本,并从所述病历文本中识别出修饰词和医疗实体;对所述病历文本进行分词,得到对应的分词结果;对所述修饰词、所述医疗实体以及所述分词结果进行融合,得到所述病历文本的句子表示;将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型,确定所述修饰词在所述病历文本中的修饰范围;从而根据所述修饰范围包括的若干参考医疗实体对所述句子表示进行结构化处理,得到所述病历文本对应的具有修饰属性的结构化数据。全面识别修饰词所修饰的医疗实体,提升病历信息结构化处理的准确性。

【技术实现步骤摘要】
病历文本处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种病历文本处理方法、装置、计算机设备和存储介质。
技术介绍
目前,医疗信息电子化在国内外得到了广泛的应用,病历文本的研究对于医疗质量的管理与监督、提高病历的规范性和完整性、提升医务人员工作效率等方面具有十分重要的作用。相关技术中,对电子病历进行结构化处理,得到结构化的病历信息。由于病历病人主诉部分、诊断结果部分中的文字内容可能没有规范的语法结构,比如存在省略、简写等情况,因此,相关技术中结构化的病历信息影响着后续处理结果的准确性。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提升结构化的病历信息准确性的病历文本处理方法、装置、计算机设备和存储介质。一种病历文本处理方法,所述方法包括:获取病历文本,并从所述病历文本中识别出修饰词和医疗实体;对所述病历文本进行分词,得到对应的分词结果;对所述修饰词、所述医疗实体以及所述分词结果进行融合,得到所述病历文本的句子表示;将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型,确定所述修饰词在所述病历文本中的修饰范围;所述修饰范围包括若干参考医疗实体;根据所述若干参考医疗实体对所述句子表示进行结构化处理,得到所述病历文本对应的具有修饰属性的结构化数据。在其中一个实施例中,所述从所述病历文本中识别出修饰词和医疗实体,包括:通过修饰词识别模型的第一双向语言网络层对所述病历文本中的各字符进行嵌入处理,得到所述病历文本对应的向量;所述修饰词识别模型还包括依次连接的第一双向长短期记忆网络层和第一条件随机场;通过所述第一双向长短期记忆网络层对所述病历文本对应的向量进行特征提取,得到所述病历文本中各字符的序列标识标签概率;通过所述第一条件随机场对各字符的序列标识标签概率进行约束计算,得到各个字符的序列标识标签;根据各个字符的序列标识标签对各个字符进行筛选,得到所述病历文本中的修饰词以及所述修饰词在病历文本中的位置。在其中一个实施例中,所述修饰词识别模型的训练方式,包括:构建第一病历样本集,所述第一病历样本集中的第一病历样本采用序列标注方式对修饰词进行标注得到;通过所述第一病历样本集对所述修饰词识别模型进行训练,根据所述修饰词识别模型预测的修饰词序列与所述第一病历样本确定模型损失值,并反向传播优化所述修饰词识别模型的参数。在其中一个实施例中,所述从所述病历文本中识别出修饰词和医疗实体,包括:通过医疗实体识别模型的第二双向语言网络层对所述病历文本中的各字符进行嵌入处理,得到所述病历文本对应的向量;所述医疗实体识别模型还包括第二双向长短期记忆网络层和第二条件随机场;通过所述第二双向长短期记忆网络层对所述病历文本对应的向量进行特征提取,得到所述病历文本中各字符的序列标识标签概率;通过所述第二条件随机场对各字符的序列标识标签概率进行约束计算,得到各个字符的序列标识标签;根据各个字符的序列标识标签对各个字符进行筛选,得到所述病历文本中的医疗实体以及所述医疗实体在病历文本中的位置。在其中一个实施例中,所述医疗实体的识别模型的训练方式,包括:构建第二病历样本集,所述第二病历样本集中的第二病历样本采用序列标注方式对医疗实体进行标注得到;通过所述第二病历样本集对所述医疗实体识别模型进行训练,根据所述医疗实体识别模型预测的医疗实体序列与所述第二病历样本确定模型损失值,并反向传播优化所述医疗实体识别模型的参数。在其中一个实施例中,所述阅读理解模型的训练语料的问句部分采用动态提问的方式,所述问句部分基于标注的修饰词动态设定。在其中一个实施例中,所述对所述修饰词、所述医疗实体以及所述分词结果进行融合,得到所述病历文本的句子表示,包括:根据所述修饰词以及所述医疗实体,对所述分词结果中的重合部分进行剔除,得到所述病历文本的句子表示;所述重合部分包括所述修饰词与所述分词结果相同部分以及所述医疗实体与所述分词结果相同部分。在其中一个实施例中,所述句子表示中的医疗实体记为待核实医疗实体;所述根据所述若干参考医疗实体对所述句子表示进行结构化处理,得到所述病历文本对应的具有修饰属性的结构化数据,包括:将所述参考医疗实体与所述待核实医疗实体进行比较;若所述待核实医疗实体与所述参考医疗实体一致,则确定所述待核实医疗实体属于所述修饰范围,对所述待核实医疗实体进行标记;根据标记后的待核实医疗实体,得到所述病历文本对应的具有修饰属性的结构化数据。一种病历文本处理装置,所述装置包括:文本获取识别模块,用于获取病历文本,并从所述病历文本中识别出修饰词和医疗实体;文本分词模块,用于对所述病历文本进行分词,得到对应的分词结果;融合模块,用于对所述修饰词、所述医疗实体以及所述分词结果进行融合,得到所述病历文本的句子表示;文本理解模块,用于将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型,确定所述修饰词在所述病历文本中的修饰范围;所述修饰范围包括若干参考医疗实体;结构处理模块,根据所述若干参考医疗实体对所述句子表示进行结构化处理,得到所述病历文本对应的具有修饰属性的结构化数据。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的方法步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中的方法步骤。上述病历文本处理方法、装置、计算机设备和存储介质,通过获取病历文本,并从所述病历文本中识别出修饰词和医疗实体;对所述病历文本进行分词,得到对应的分词结果;对所述修饰词、所述医疗实体以及所述分词结果进行融合,得到所述病历文本的句子表示;将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型,确定所述修饰词在所述病历文本中的修饰范围;从而根据所述修饰范围包括的若干参考医疗实体对所述句子表示进行结构化处理,得到所述病历文本对应的具有修饰属性的结构化数据。全面识别修饰词所修饰的医疗实体,提升病历信息结构化处理的准确性。附图说明图1为一个实施例中病历文本处理方法的应用环境图;图2a为一个实施例中病历文本处理方法的流程示意图;图2b为一个实施例中病历文本的句子标识的示意图;图2c为一个实施例中阅读理解模型的结构示意图;图2d为一个实施例中修饰范围问句的示意图;图2e为一个实施例中具有修饰属性的结构化数据的示意图;图3a为一个实施例中S210步骤的流程示意图;图3b为一个实施例中修饰词识别模型的结构示意图;图3c为一个实施例中修饰词标注的示意图;图4a为一个实施例中S210步骤的流程示意图;图4b为一个实施例中医疗实体标注的示意图;图4本文档来自技高网...

【技术保护点】
1.一种病历文本处理方法,其特征在于,所述方法包括:/n获取病历文本,并从所述病历文本中识别出修饰词和医疗实体;/n对所述病历文本进行分词,得到对应的分词结果;/n对所述修饰词、所述医疗实体以及所述分词结果进行融合,得到所述病历文本的句子表示;/n将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型,确定所述修饰词在所述病历文本中的修饰范围;所述修饰范围包括若干参考医疗实体;/n根据所述若干参考医疗实体对所述句子表示进行结构化处理,得到所述病历文本对应的具有修饰属性的结构化数据。/n

【技术特征摘要】
1.一种病历文本处理方法,其特征在于,所述方法包括:
获取病历文本,并从所述病历文本中识别出修饰词和医疗实体;
对所述病历文本进行分词,得到对应的分词结果;
对所述修饰词、所述医疗实体以及所述分词结果进行融合,得到所述病历文本的句子表示;
将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型,确定所述修饰词在所述病历文本中的修饰范围;所述修饰范围包括若干参考医疗实体;
根据所述若干参考医疗实体对所述句子表示进行结构化处理,得到所述病历文本对应的具有修饰属性的结构化数据。


2.根据权利要求1所述的方法,其特征在于,所述从所述病历文本中识别出修饰词和医疗实体,包括:
通过修饰词识别模型的第一双向语言网络层对所述病历文本中的各字符进行嵌入处理,得到所述病历文本对应的向量;所述修饰词识别模型还包括依次连接的第一双向长短期记忆网络层和第一条件随机场;
通过所述第一双向长短期记忆网络层对所述病历文本对应的向量进行特征提取,得到所述病历文本中各字符的序列标识标签概率;
通过所述第一条件随机场对各字符的序列标识标签概率进行约束计算,得到各个字符的序列标识标签;
根据各个字符的序列标识标签对各个字符进行筛选,得到所述病历文本中的修饰词以及所述修饰词在病历文本中的位置。


3.根据权利要求2所述的方法,其特征在于,所述修饰词识别模型的训练方式,包括:
构建第一病历样本集,所述第一病历样本集中的第一病历样本采用序列标注方式对修饰词进行标注得到;
通过所述第一病历样本集对所述修饰词识别模型进行训练,根据所述修饰词识别模型预测的修饰词序列与所述第一病历样本确定模型损失值,并反向传播优化所述修饰词识别模型的参数。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述从所述病历文本中识别出修饰词和医疗实体,包括:
通过医疗实体识别模型的第二双向语言网络层对所述病历文本中的各字符进行嵌入处理,得到所述病历文本对应的向量;所述医疗实体识别模型还包括第二双向长短期记忆网络层和第二条件随机场;
通过所述第二双向长短期记忆网络层对所述病历文本对应的向量进行特征提取,得到所述病历文本中各字符的序列标识标签概率;
通过所述第二条件随机场对各字符的序列标识标签概率进行约束计算,得到各个字符的序列标识标签;
根据各个字符的序列标识标签对各个字符进行筛选,得到所述病历文本中的医疗实体以及所述医疗实体在病历文本中的位置。


5.根据权利要求4所述的方法,其特征在于,所述医疗实体的识别模型...

【专利技术属性】
技术研发人员:周书勇高宇陆奇梁波
申请(专利权)人:苏州超云生命智能产业研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1