用于数据处理的方法、设备和介质技术

技术编号:37800227 阅读:33 留言:0更新日期:2023-06-09 09:30
本公开的实施例涉及用于数据处理的方法、设备和介质。根据各种实施例,确定报告呈现的文本信息以及与文本信息相关联的坐标位置信息。基于坐标位置信息以及文本信息,确定与至少一个检查项目相对应的第一文本元素集合。利用实体识别模型确定第一文本元素集合中的文本元素所属的实体类别。实体识别模型已经基于多个类型的报告而被训练。基于第一文本元素集合和所确定的实体类别来生成针对报告的结构化数据表示。结构化数据表示包括与至少一个检查项目相对应的至少一个数据记录。每个数据记录包括对应于检查项目的文本元素和文本元素所属的实体类别的标识符。所生成的结构化数据表示能够便于对患者信息进行检索以及后续的诊断和其他操作。诊断和其他操作。诊断和其他操作。

【技术实现步骤摘要】
用于数据处理的方法、设备和介质


[0001]本公开的实施例总体上涉及数据处理,并且更具体地,涉及用于数据处理的方法、设备和介质。

技术介绍

[0002]在患者的诊断、治疗、手术和其他医疗过程中,会产生各种不同的报告,例如实验室检查报告和生化报告等。各类报告的示例可以包括肝功能检查报告、血脂检查报告、尿液检查报告、遗传学检查报告、药物浓度检测报告,等等。虽然已经存在一些医学信息的电子系统能够提供和存储各类报告,但在很多医院,特别是欠发达地区的医院或者较低级别的医院可能仍然没有硬件和软件基础架构能够支持这样的电子系统。因此,当前很多患者仅会获得打印出来的硬拷贝形式的报告,诸如各种实验室检查报告和生化报告。在后续医学诊断和治疗过程中,患者需要随身携带各类硬拷贝形式的报告,以供临床医生对患者的疾病状态和诊断历史进行追踪,从而正确评估后续的诊断和治疗。
[0003]目前已经存在一些技术,例如,光学字符识别(OCR)技术能够从通过扫描硬拷贝形式的报告所获得的数字化图像中提取文本信息用于后续的诊断和治疗。然而,这种使用OCR技术所提取的文本信息通常杂本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:确定报告呈现的文本信息以及与所述文本信息相关联的坐标位置信息,所述坐标位置信息指示所述文本信息中所包括的多个文本元素在所述报告中的位置;基于所述坐标位置信息和所述文本信息,确定与至少一个检查项目相对应的第一文本元素集合;利用实体识别模型确定所述第一文本元素集合中的文本元素所属的实体类别,所述实体识别模型已经基于多个类型的报告而被训练;以及基于所述第一文本元素集合和所确定的实体类别来生成所述报告的结构化数据表示,所述结构化数据表示包括与所述至少一个检查项目相对应的至少一个数据记录,其中每个数据记录包括对应于检查项目的文本元素和所述文本元素所属的实体类别的标识符。2.根据权利要求1所述的方法,其中所述多个文本元素的所述位置包括垂直坐标和水平坐标,并且其中确定所述第一文本元素集合包括:从所述文本信息选择具有第一垂直坐标的至少一个第一文本元素;以及将所述第一文本元素集合确定为至少包括所述至少一个第一文本元素。3.根据权利要求2所述的方法,其中确定所述第一文本元素集合还包括:从所述文本信息选择具有第二垂直坐标的至少一个第二文本元素,所述第二垂直坐标与所述第一垂直坐标之间的差值不超过差值阈值;以及如果确定所述至少一个第二文本元素的水平坐标的范围不超过阈值范围,将所述第一文本元素集合确定为还包括所述至少一个第二文本元素。4.根据权利要求3所述的方法,其中将所述第一文本元素集合确定为还包括所述至少一个第二文本元素包括:如果确定所述至少一个第二文本元素的所述水平坐标的值不大于所述至少一个第一文本元素的水平坐标的值,将所述至少一个第二文本元素插入到所述至少一个第一文本元素之前;以及如果确定所述至少一个第二文本元素的所述水平坐标的值大于所述至少一个第一文本元素的水平坐标的值,将所述至少一个第二文本元素插入到所述至少一个第一文本元素之后。5.根据权利要求1所述的方法,还包括:基于所述坐标位置信息和所述文本信息,确定与所述报告的头部的位置相关联的第二文本元素集合;以及从所述第二文本元素集合确定所述报告的附加信息。6.根据权利要求5所述的方法,其中所述附加信息包括所述报告的时间信息;并且其中生成所述结构化数据表示包括将所述时间信息添加到所述结构化数据表示中。7.根据权利要求5所述的方法,其中所述附加信息包括分栏指示信息,所述分栏指示信息指示所述报告是单栏报告还是多栏报告。8.根据权利要求7所述的方法,其中生成所述结构化数据表示包括:如果所述分栏指示信息指示所述报告是单栏报告,生成与单个检查项目相对应的单个数据记录,所述单个数据记录包括所述第一文本元素集合和所述第一文本元素集合中的文本元素所属的实体类别的标识符;以及
如果所述分栏指示信息指示所述报告是多栏报告,生成与多个检查项目分别相对应的多个数据记录,所述多个数据记录中的每个数据记录包括所述第一文本元素集合中位于所述报告的多个栏中的相应栏内的文本元素子集以及所述文本元素子集中的文本元素所属的实体类别的标识符。9.根据权利要求8所述的方法,其中生成所述多个数据记录包括:基于所述第一文本元素集合中被确定为属于项目名称的实体类别的多个文本元素的位置,确定所述多个栏的分栏坐标信息;基于所述分栏坐标信息,将所述第一文本元素集合拆分为多个文本元素子集,每个文本元素子集对应于所述多个检查项目中的一个检查项目并且包括所述第一文本元素集合中的至少一个文本元素;以及基于所述第一文本元素集合的所述拆分来生成所述多个数据记录。10.根据权利要求1所述的方法,其中所述实体类别包括以下至少一项:项目名称、检查结果、检查结果的单位、参考值范围、以及结果解释。11.根据权利要求1所述的方法,其中利用所述实体识别模型确定所述第一文本元素集合中的文本元素所属的实体类别包括:提取所述第一文本元素集合中的文本元素的一组特征,所述一组特征包括以下至少一项:词语的词性标注、词语的后缀单词数目以及词语的长度;以及利用所述实体识别模型,基于所提取的所述一组特征来确定所述第一文本元素集合中的文本元素所属的所述实体类别。12.一种电子设备,包括:处理单元;以及存储器,耦合至所述处理单元并且包括存储于其上的指令,所述指令在由所述处理单元执行时使所述电子设备执行以下动作:确定报告呈现的文本信息以及与所...

【专利技术属性】
技术研发人员:李作峰倪伟韩阳金玲蒋安惠宗辉张泽宇
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1