一种电子病历结构化处理方法和装置及设备制造方法及图纸

技术编号:33068293 阅读:18 留言:0更新日期:2022-04-15 09:59
本发明专利技术提供了一种电子病历结构化处理方法和装置及设备,所述方法包括:获取包括多个病历文本的电子病历集;根据预设的主题及关联的内容的特征,解析病历文本中的主题及关联的内容,并将解析的各主题及关联的内容划分为段落;对各段落进行子句划分,并对划分的各子句进行依存句法分析,确定实体以及其依存关系特征;根据实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。利用本发明专利技术提供的方法,可以对电子病历进行结构化处理,获得具有预设关系的结构化实体,为对病历文本进行数据挖掘提供了可能。数据挖掘提供了可能。数据挖掘提供了可能。

【技术实现步骤摘要】
一种电子病历结构化处理方法和装置及设备


[0001]本专利技术涉及自然语言分析领域,尤其涉及一种电子病历结构化处理方法和装置及设备。

技术介绍

[0002]病历是病人在医院诊断治疗全过程的原始记录,它包含有首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等。电子病历是以电子化方式管理的,有关个人终生健康状态和医疗保健行为的信息,涉及病人信息的采集、存储、传输、处理和利用的所有过程信息。
[0003]为了能够根据电子病历进行核心数据分析以及数据检索,需要对电子病历进行结构化分析,高效地提取出病历中的关键信息。但是现有的电子病历结构化的方案仅能够通过电子病历进行文本分析,提取预设的特征,实现对病历中的疾病、症状、用药等相关实体的识别,但是只能得到无法关联的实体信息。例如,在病历中提取出四个实体:舒张压、收缩压、120、80,现有的技术方案无法对应上述实体间的关系,不能确定上述例子中舒张压是120还是80。因此,现有的对电子病历进行结构化分析的方案无法将上述提取出的信息应用到诊断推理上,更无法为进一步的数据挖掘提供可能。因此,急需一种对电子病历进行深层次的结构化处理,得到关系确定的实体信息的方案。

技术实现思路

[0004]本专利技术提供一种电子病历结构化处理方法和装置及设备,解决现有的电子病历结构化的方案仅能实现对病历中相关实体的识别,只能得到无法关联的实体信息的问题。
[0005]第一方面,本专利技术提供一种电子病历结构化处理方法,该方法包括:
[0006]获取包括多个病历文本的电子病历集;
[0007]根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
[0008]对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;
[0009]根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
[0010]可选地,根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
[0011]根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
[0012]根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
[0013]将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
[0014]可选地,根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
[0015]挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
[0016]根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。
[0017]可选地,根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:
[0018]根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;
[0019]根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。
[0020]可选地,得到所述各子句对应的结构化实体后,还包括:
[0021]对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。
[0022]可选地,对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,包括:
[0023]根据预先训练的分词模型,对所述划分得到的各子句分别进行分词处理,获得所述各子句对应的子词;
[0024]根据预先训练的词性标注模型,对所述子词进行词性标注,获得标注词性的子词;
[0025]根据预先训练的依存句法分析模型,对所述标注词性的子词进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征,所述依存关系特征包括实体的词性特征和实体间的关联关系特征。
[0026]可选地,根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,包括:
[0027]确定与所述预设实体结构中不同实体位置,相匹配的实体的预设依存关系;
[0028]根据所述实体的依存关系特征,提取各子句中符合所述预设依存关系的实体;
[0029]将提取的实体填充到所述预设实体结构的对应实体位置,得到所述各子句对应的结构化实体。
[0030]第二方面,本专利技术提供一种电子病历结构化处理设备,包括存储器和处理器,其中:
[0031]所述存储器用于存储计算机程序;
[0032]所述处理器用于读取所述存储器中的程序并执行如下步骤:
[0033]获取包括多个病历文本的电子病历集;
[0034]根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;
[0035]对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各
子句中的实体以及所述实体的依存关系特征;
[0036]根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。
[0037]可选地,所述处理器根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:
[0038]根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;
[0039]根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;
[0040]将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。
[0041]可选地,所述处理器根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:
[0042]挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;
[0043]根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子病历结构化处理方法,其特征在于,包括:获取包括多个病历文本的电子病历集;根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落;对各段落进行子句划分,并对划分得到的各子句进行依存句法分析,确定所述各子句中的实体以及所述实体的依存关系特征;根据所述实体的依存关系特征,提取各子句中符合预设依存关系的实体,并填充到预设实体结构的对应实体位置,得到所述各子句对应的结构化实体,所述预设实体结构包括不同实体位置且不同实体位置间存在预设依存关系。2.根据权利要求1所述的方法,其特征在于,根据预设的主题及与所述主题关联的内容的特征,解析所述病历文本中的主题及其关联的内容,并将解析的各主题及该主题关联的内容划分为段落,包括:根据槽位组结构体中槽位映射的主题的特征,解析所述病历文本中对应的主题,所述槽位组结构体为根据病历模板中不同主题及其关联内容对应的结构,确定的包括映射不同主题的槽位及所述槽位之间对应的结构关系的结构;根据解析的主题,在所述病历文本中确定与所述解析的主题关联的内容;将解析的各主题及相关联的内容划分为段落,并填充到对应的槽位中,得到对应的结构化数据组。3.根据权利要求2所述的方法,其特征在于,根据病历模板中不同主题及其关联内容对应的结构确定槽位组结构体,包括:挖掘病历模板中的主题及所述主题之间的结构关系,并根据所述主题及其结构关系确定对应的槽位和所述槽位之间的结构关系,所述结构关系包括但不限于并列关系,包含关系,选择关系;根据所述槽位和所述槽位之间的结构关系,构建树形结构的槽位组结构体。4.根据权利要求3所述的方法,其特征在于,根据病历模板中不同主题及其关联内容对应的结构,确定槽位组结构体,还包括:根据所述电子病历集中病历文本的内容类型,对所述病例文本进行病历模板类型划分;根据不同病历模板中不同主题及其关联内容对应的结构,确定对应的槽位组结构体。5.根据权利要求1所述的方法,其特征在于,得到所述各子句对应的结构化实体后,还包括:对所述结构化实体进行有关联关系的键值对提取,获得实体关键词和所述实体关键词对应的数值。6...

【专利技术属性】
技术研发人员:程龙龙黄硕袁丁江正义
申请(专利权)人:中电云脑天津科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1