实体识别模型训练、电子病历处理方法、系统及设备技术方案

技术编号:30159749 阅读:24 留言:0更新日期:2021-09-25 15:12
本发明专利技术公开了一种实体识别模型训练、电子病历处理方法、系统及设备,包括以下步骤:获取病历文本数据;根据预定义的病历文本数据结构化所需的实体类型对病历文本数据进行标注,以生成具有实体类型标注的样本数据集;根据序列标注规则,转换样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集;根据训练病历标签样本数据集训练深度学习实体识别模型,以生成实体识别模型。根据本发明专利技术的实体识别模型训练、电子病历处理方法、系统及设备,针对性强,识别效果好,结构化效果好。结构化效果好。

【技术实现步骤摘要】
实体识别模型训练、电子病历处理方法、系统及设备


[0001]本专利技术属于医疗文本处理领域,具体涉及一种实体识别模型训练、电子病历处理方法、系统及设备。

技术介绍

[0002]结构化电子病历是指从医学信息学角度,将以自然语言方式录入的医疗文书按照医学术语要求进行结构化分析,并将这些语义结构最终以面向对象的方式保存至数据库。
[0003]电子病历数据结构用于规范描述电子病历中数据的层次结构关系,即将电子病历数据分解至最小化结构并作为一个单元。由此,电子病历数据能够分别定位在相应的层级结构中,最终实现结构化的录入、存储、查询和共享。
[0004]医学文本中记录着患者在诊断与治疗过程中所产生的非结构化文本报告。非结构化文本报告通常包括了超声检查文本报告、CT检查文本报告、MRI文本报告和病理报告等,其蕴含着非常丰富的医学事实知识。中文医疗文档中存在大量的非结构化自然语言文本数据。非结构化自然语言文本数据不能直接运用于AI数据分析算法。
[0005]为使医疗平台中的文本信息、文本记录和检查报告等非结构化数据能被有效的检索和利用,使汇集的医学信息发挥更大的价值。基于AI技术,技术人员采用医学自然语言技术处理医疗文本数据从而实现对电子病历文本的处理。然而有些电子病历处理方法只是简单的抽取出了实体数据,没有建立实体之间的关系,不能满足结构化的要求。
[0006]早期的电子病历结构化方法是基于词典库的,该方法需要在前期构建一个专业的词典库,通过检索匹配词典库对病历文本结构化。由于专业的词典库都是领域专业人士构建的,虽然该方法准确率高,但是过度依赖领域专业人士,并且需要消耗大量的人力和时间成本。现有的电子病历结构化方法有些方法技术过于陈旧,对病历文本实体的识别效果欠缺。有些方法过于依赖专业领域数据,对非领域数据结构化效果不理想。

技术实现思路

[0007]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出了一种对病历文本结构化所需的实体类型和实体信息识别效果好、针对性强的实体识别模型。
[0008]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术提出一种能够快速准确地从电子病历海量信息中抽取出重要信息并结构化电子病历且结构化效果好的电子病历处理方法。
[0009]本专利技术还提出了一种实体识别模型的训练方法,包括以下步骤:获取病历文本数据;根据预定义的实体类型集合对所述病历文本数据进行标注,其中,所述预定义的实体类型集合满足所述病历文本数据的结构化需求,以生成具有实体类型标注的样本数据集;根据序列标注规则,转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集;以及,根据所述训练病历标签样本数据集训练深度学习实体识别模型,以使
所述深度学习实体识别模型学习所述实体信息和所述对应实体类型标签之间的对应关系,以生成实体识别模型。
[0010]另外,根据本专利技术的实体识别模型的训练方法,还可以具有如下附加的技术特征:
[0011]根据本专利技术的一些实施例,所述标注之前还预处理病历文本数据,所述预处理包括以下步骤:将所述病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符,以生成规范病历文本数据;以及,删除所述规范病历文本数据中的空格符、换行符和脏字符串,以生成预处理病历文本数据。
[0012]根据本专利技术的一些实施例,还包括采用测试样本测试所述实体识别模型,若测试满足预设条件,则输出所述实体识别模型;若不满足预设条件,则重新获取所述病历文本数据进行训练;所述测试样本来自于所述预处理病历文本数据,所述测试样本和所述训练病历标签样本数据集具有的样本的数量比为3:7。
[0013]本专利技术还提出了一种训练系统,包括:获取模块,用于获取病历文本数据;标注模块,用于根据预定义的所述病历文本数据结构化所需的实体类型对所述病历文本数据进行标注,以生成具有实体类型标注的样本数据集;转换模块,用于根据序列标注规则,转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集,以及,训练模块,用于根据所述训练病历标签样本数据集训练深度学习实体识别模型,以生成实体识别模型。
[0014]本专利技术还提出了一种电子病历处理方法,包括以下步骤:获取待处理病历文本数据;采用实体识别模型识别所述待处理病历文本数据的实体信息和对应的实体类型标签,以生成待处理病历标签样本数据集,所述实体识别模型是如上所述的训练方法训练生成的;以及,根据预定义的结构化规则,结构化所述待处理病历标签样本数据集,以生成结构化电子病历。
[0015]另外,根据本专利技术的电子病历处理方法,还可以具有如下附加的技术特征:
[0016]根据本专利技术的一些实施例,所述待处理病历文本数据在所述识别之前进行预处理,所述预处理包括以下步骤:将所述待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符,以生成待处理规范病历文本数据;以及,删除所述待处理规范病历文本数据中的空格符、换行符和脏字符串。
[0017]本专利技术还提出了一种电子病历处理系统,包括:获取模块,用于获取待处理病历文本数据;识别模块,用于识别所述待处理病历文本数据的实体信息和对应的实体类型标签,以生成待处理病历标签样本数据集;以及,结构化模块,用于根据预定义的结构化规则,结构化所述待处理病历标签样本数据集,以生成结构化电子病历。
[0018]另外,根据本专利技术的电子病历处理系统,还可以具有如下附加的技术特征:
[0019]根据本专利技术的一些实施例,还包括预处理模块,用于先将所述待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符,以生成所述待处理规范病历文本数据,然后删除所述待处理规范病历文本数据中的空格符、换行符和脏字符串。
[0020]本专利技术还提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上所述的训练方法。
[0021]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的训练方法。
[0022]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
具体实施方式
[0023]下面详细描述本专利技术的实施例,所述实施例旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0024]一种实体识别模型的训练方法,包括以下步骤:
[0025]步骤11:获取病历文本数据。
[0026]举例来说,获取的病历文本数据为包含患者某些疾病的医学信息的电子文本,例如:面对患者的心内科疾病,可获得心内科疾病方面的医学信息:心腔大小和室壁厚度:左房面积:2527mm2,长轴横径:42.6mm,右房面积:2211mm2。
[0027]步骤12:根据预定义的实体类型集合对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型的训练方法,其特征在于,包括以下步骤:获取病历文本数据;根据预定义的实体类型集合对所述病历文本数据进行标注,其中,所述预定义的实体类型集合满足所述病历文本数据的结构化需求,以生成具有实体类型标注的样本数据集;根据序列标注规则,转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集;以及,根据所述训练病历标签样本数据集训练深度学习实体识别模型,以生成实体识别模型。2.根据权利要求1所述的实体识别模型的训练方法,其特征在于,所述标注之前还预处理所述病历文本数据,所述预处理包括以下步骤:将所述病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符,以生成规范病历文本数据;以及,删除所述规范病历文本数据中的空格符、换行符和脏字符串,以生成预处理病历文本数据。3.根据权利要求2所述的实体识别模型的训练方法,其特征在于,还包括采用测试样本测试所述实体识别模型,若测试满足预设条件,则输出所述实体识别模型;若不满足预设条件,则重新获取所述病历文本数据进行训练;所述测试样本来自于所述预处理病历文本数据,所述测试样本和所述训练病历标签样本数据集具有的样本的数量比为3:7。4.一种训练系统,其特征在于,包括:获取模块,用于获取病历文本数据;标注模块,用于根据预定义的实体类型集合对所述病历文本数据进行标注,其中,所述预定义的实体类型集合满足所述病历文本数据的结构化需求,以生成具有实体类型标注的样本数据集;转换模块,用于根据序列标注规则,转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集;以及,训练模块,用于根据所述训练病历标签样本数据集训练深度学习实体识别模型,以生成实体识别模型。5.一种电子病历处理方法,其特征在于,包括以下步骤:获取待处理病历文本数据...

【专利技术属性】
技术研发人员:郑涛陈珊黎丁海明司丹丹孙孝坤胡豪
申请(专利权)人:万达信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1