【技术实现步骤摘要】
病历文本信息结构化方法、装置、电子设备及存储介质
[0001]本公开涉及一种病历文本信息结构化方法和装置、病历文本信息结构化编码方法和装置、电子设备以及可读存储介质。
技术介绍
[0002]文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,主要表现为医疗领域专业性较强,含有大量的医学专业名称,并且医学文本的语言特征与普通文本也有较大差异。实体识别及实体关系建立,已经在有些行业领域应用,但是针对具体领域,需要做适应性调整。因此,基于医疗文本进行医疗实体及医疗实体关系提取,将医疗文本信息基于自身行业特性有效组织并编码,进而将编码后的医疗文本作为医疗文本分类的输入,将会影响医疗文本分类效果和性能。
技术实现思路
[0003]为了解决上述技术问题中的至少一个,本公开提供一种病历文本信息结构化方法和装置、病历文本信息结构化编码方法和装置、电子设备及可读存储介质。
[0004]根据本公开的一个方面,提供一种病历文本信息结构化方法,包括:
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种病历文本信息结构化方法,其特征在于,包括:确定病历文本实体属性类型;从病历文本中抽取实体属性类型关联的实体;将所述实体拆分为子实体;以及基于所述实体类型、实体及子实体建立病历文本关系图。2.根据权利要求1所述的病历文本信息结构化方法,其特征在于,所述病历文本实体属性类型包括:时间属性,表示与病历时间相关的属性;症状属性,表示病历症状相关的属性;频率属性,表示发病频率相关的属性;医院属性,表示住院医院相关属性;检查属性,表示诊疗相关属性;以及检查结果属性,表示诊断结果相关的属性。3.根据权利要求1所述的病历文本信息结构化方法,其特征在于,从病历文本中抽取实体属性类型关联的实体,包括:基于实体识别模型,从病历文本中获取实体属性类型关联的实体,所述实体识别模型包括CRF模型。4.根据权利要求1所述的病历文本信息结构化方法,其特征在于,将所述实体拆分为子实体,包括:基于子实体识别模型,将实体拆分为子实体,所述子实体为基于实体分裂而获取的原子实体,所述子实体识别模型包括CRF模型。5.一种病历文本信息结构化编码方法,其特征在于,包括:确定病历文本实体属性类型;从病历文本中抽取实体属性类型关联的实体;将所述实体拆分为子实体;基于所述实体类型、实体及子实体建立病历文本关系图;以及基于归纳学习的神经网络对病历文本关系图中的子实体进行编码,生成上下文相关的子实体特征表示及病历文本编码表示。6.根据权利要求5所述的病历文本...
【专利技术属性】
技术研发人员:张萌,周玉,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。