健康档案报告的生成方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:38262510 阅读:15 留言:0更新日期:2023-07-27 10:21
本发明专利技术公开了一种健康档案报告的生成方法、装置、存储介质及计算机设备,涉及文字信息处理技术领域。其中方法包括:获取待处理文本文件,并根据待处理文本文件的文件类型,将待处理文本文件转化为结构化文本文件;识别结构化文本文件中的错别字,获取错别字对应的正确文字,并利用正确文字替换错别字,得到纠错后的结构化文本文件;识别结构化文本文件中的医学实体信息,并在结构化文本文件中识别与医学实体信息对应的关联属性信息;将医学实体信息和与医学实体信息对应的关联属性信息设置在预设的健康报告因子树的预设位置处,得到结构化的健康档案报告。上述方法能够实现对用户的健康档案进行结构化存储,提高对用户的健康报告文件的利用率。告文件的利用率。告文件的利用率。

【技术实现步骤摘要】
健康档案报告的生成方法、装置、存储介质及计算机设备


[0001]本专利技术涉及文字信息处理
,尤其是涉及一种健康档案报告的生成方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着互联网在线医疗技术的发展,各大在线医疗平台多获取用户的体检报告、诊疗结果等健康报告文件,采集其中的医学信息为用户建立专属的健康档案。
[0003]然而,上述的体检报告、诊疗结果等文件多为非结构化的形式存在,各大医疗平台当前的主要作法为采集非结构化的文件,人工定位并采集其中的医学信息,并将其总结归纳为健康档案。
[0004]但是,当需要对海量的非结构化的健康报告文件进行信息采集时,上述方法无法对全部的非结构化的健康报告文件进行高效的信息采集,只能实现对其中的小部分健康报告文件进行处理,并获取其中的医学信信息,从而导致对用户的健康报告文件的利用率较低。

技术实现思路

[0005]有鉴于此,本申请提供了一种健康档案报告的生成方法、装置、存储介质及计算机设备,主要目的在于解决对用户的健康报告文件的利用率较低的技术问题。
[0006]根据本专利技术的第一个方面,提供了一种健康档案报告的生成方法,该方法包括:
[0007]获取待处理文本文件,并根据所述待处理文本文件的文件类型,将所述待处理文本文件转化为结构化文本文件;
[0008]识别所述结构化文本文件中的错别字,获取所述错别字对应的正确文字,并利用所述正确文字替换所述错别字,得到纠错后的所述结构化文本文件;
[0009]识别所述结构化文本文件中的医学实体信息,并在所述结构化文本文件中识别与所述医学实体信息对应的关联属性信息;
[0010]将所述医学实体信息和与所述医学实体信息对应的关联属性信息设置在预设的健康报告因子树的预设位置处,得到结构化的健康档案报告。
[0011]根据本专利技术的第二个方面,提供了一种健康档案报告的生成装置,该装置包括:
[0012]文本生成模块,用于获取待处理文本文件,并根据所述待处理文本文件的文件类型,将所述待处理文本文件转化为结构化文本文件;
[0013]错误处理模块,用于识别所述结构化文本文件中的错别字,获取所述错别字对应的正确文字,并利用所述正确文字替换所述错别字,得到纠错后的所述结构化文本文件;
[0014]信息确定模块,用于识别所述结构化文本文件中的医学实体信息,并在所述结构化文本文件中识别与所述医学实体信息对应的关联属性信息;
[0015]关联属性信息档案生成模块,用于将所述医学实体信息和与所述医学实体信息对应的关联属性信息设置在预设的健康报告因子树的预设位置处,得到结构化的健康档案报
告。
[0016]根据本专利技术的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述健康档案报告的生成方法。
[0017]根据本专利技术的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述健康档案报告的生成方法。
[0018]本专利技术提供的一种健康档案报告的生成方法、装置、存储介质及计算机设备,将与用户相关的全部的非结构化的文本文件转化为结构化的文本文件并对其中存在的错别字进行修改。进一步的,识别出文本文件涉及的医学实体信息,如疾病、症状等。进一步的,在文本文件中识别出与每个医学实体信息对应的关联属性信息,如剂量、单位等信息。在得到文本文件涉及的全部医学实体信息和与每个医学实体信息对应的关联属性信息之后,将医学实体信息和设置于预设的健康报告因子树上的对应位置,并将每个医学实体信息对应的关联属性信息设置在健康报告因子树上的与医学实体信息的位置相应的预设位置处,得到包含用户既有的全部医学信息的结构化的健康档案报告。本申请能够快速的识别海量健康报告文件中的医学信息,并将医学信息中的医学实体信息与关联属性信息设置在预设的健康档案报告模板处,高效的生成健康档案,提高了对用户的健康报告文件的利用率。
[0019]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0020]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0021]图1示出了本专利技术实施例提供的一种健康档案报告的生成方法的流程示意图;
[0022]图2示出了本专利技术实施例提供的一种健康档案报告的生成装置的结构示意图;
[0023]图3示出了本专利技术实施例提供的另一种健康档案报告的生成装置的结构示意图;
[0024]图4示出了本专利技术实施例提供的又另一种健康档案报告的生成装置的结构示意图。
具体实施方式
[0025]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0026]当前,医疗平台保有的体检报告、诊疗结果等文件多为非结构化的形式存在,各大医疗平台当前的主要作法为采集非结构化的文件,人工定位并采集其中的医学信息,并将其总结归纳为健康档案。但是,当需要对海量的非结构化的健康报告文件进行信息采集时,上述方法无法对全部的非结构化的健康报告文件进行高效的信息采集,只能实现对其中的小部分健康报告文件进行处理,并获取其中的医学信信息,从而导致对用户的健康报告文件的利用率较低。
[0027]针对上述问题,在一个实施例中,如图1所示,提供了一种健康档案报告的生成方
法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
[0028]101、获取待处理文本文件,并根据所述待处理文本文件的文件类型,将所述待处理文本文件转化为结构化文本文件。
[0029]其中,待处理文本文件为以非结构化的形式存在体检报告、诊疗结果等文件,其中,文件类型可以包括以可移植文档格式(Portable Document Format.PDF)存在的待处理文本文件,也可以为以图片形式存在的基础文本格式的待处理文本文件。
[0030]进一步的,可以对待处理文本文件进行光学符号识别(Optical Character Recognition.OCR),将待处理文本文件转换为可进行文字读写的结构化文本文件。具体的,若待处理文本文件为以图片形式存在的基础文本格式的待处理文本文件,则对该待处理文本文件进行光学符号识别,识别出待处理文本文件中的每一个文字,并生成包含全部文字的结构化文本文件。进一步的,若待处理文本文件的为可解析的PDF格式文件,则可以对其进行PDF解析,解析出处理文本文件中的每一个文字,生成包含全部文字的结构化文本文件;若待处理文本文件的为不可解析的PDF格式文件,则可以将其视为以图片形式存在的基础文本格式的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种健康档案报告的生成方法,其特征在于,所述方法包括:获取待处理文本文件,并根据所述待处理文本文件的文件类型,将所述待处理文本文件转化为结构化文本文件;识别所述结构化文本文件中的错别字,获取所述错别字对应的正确文字,并利用所述正确文字替换所述错别字,得到纠错后的所述结构化文本文件;识别所述结构化文本文件中的医学实体信息,并在所述结构化文本文件中识别与所述医学实体信息对应的关联属性信息;将所述医学实体信息和与所述医学实体信息对应的关联属性信息设置在预设的健康报告因子树的预设位置处,得到结构化的健康档案报告。2.根据权利要求1所述的方法,其特征在于,所述待处理文本文件的文件类型为文字类型;则所述根据所述待处理文本文件的文件类型,将所述待处理文本文件转化为结构化文本文件,包括:对所述文字类型的待处理文本文件进行光学符号识别,得到所述待处理文本文件中的文字信息,并根据所述文字信息生成所述结构化文本文件。3.根据权利要求1所述的方法,其特征在于,所述待处理文本文件的文件类型为表格类型;则所述根据所述待处理文本文件的文件类型,将所述待处理文本文件转化为结构化文本文件,还包括:对所述表格类型的待处理文本文件进行光学符号识别,得到所述待处理文本文件中的文字信息以及单元格信息,并确定每个所述单元格信息在第一参考坐标系中的第一坐标信息,其中,所述第一参考系基于所述待处理文本文件预先设置;基于所述第一坐标信息,确定处于同一行的全部所述单元格信息,并为每个所述单元格信息内的所述文字信息设置行标签,并确定处于同一列的全部所述单元格信息,并为每个所述单元格信息内的所述文字信息设置列标签;根据所述文字信息、所述行标签和所述列标签,生成所述结构化文本文件。4.根据权利要求1所述的方法,其特征在于,所述待处理文本文件的文件类型为图表类型;则所述根据所述待处理文本文件的文件类型,将所述待处理文本文件转化为结构化文本文件,还包括:对所述图表类型的待处理文本文件进行光学符号识别,得到所述待处理文本文件中的文字信息以及图形信息,并确定每个所述文字信息和每个所述图形信息在第二参考坐标系中的第二坐标信息,其中,所述第二参考坐标系基于所述待处理文本文件预先设置;将每个所述文字信息的第二坐标信息和每个所述图形信息的第二坐标信息输入到预训练的图形文字关联确定模型中,得到与所述图形信息具有相关关系的所述文字信息,并为与同一图形信息具有相关关系的所述文字信息设置相关关系标签;根据所述文字信息和所述相关关系标签,生成结构化文本文件。5.根据权利要求4所述的方法,其特征在于,所述识别所述结构化文本文件中的医学实体信息,并在所述结构化文本文件中识别与所述医学实体信息对应的关联属性信息,包括:将所述结构化文本文件输入到预训练的医学实体识别模型中,识别出所述结构化文本文件中的医学实体信息;将所述医学实体信息和与所述医学实体信息具有相同所述行标签和/或相同所述列标
签的文字信息,以及与所述医学实体信息具有相同所述相关关系标签的文字信息入到预训练的医学实体相关属性识别模型中,识别出所述医学实体信息对应的关联属性信息。6.根据权利要求5所述的方法,其特征在于,在所述识别所述结构化文本文件中的医学实体信息,并在所述结构化文本文件中识别与所...

【专利技术属性】
技术研发人员:李家瑞
申请(专利权)人:康键信息技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1