健康档案报告的生成方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：38262510 阅读：15 留言：0更新日期：2023-07-27 10:21

本发明专利技术公开了一种健康档案报告的生成方法、装置、存储介质及计算机设备，涉及文字信息处理技术领域。其中方法包括：获取待处理文本文件，并根据待处理文本文件的文件类型，将待处理文本文件转化为结构化文本文件；识别结构化文本文件中的错别字，获取错别字对应的正确文字，并利用正确文字替换错别字，得到纠错后的结构化文本文件；识别结构化文本文件中的医学实体信息，并在结构化文本文件中识别与医学实体信息对应的关联属性信息；将医学实体信息和与医学实体信息对应的关联属性信息设置在预设的健康报告因子树的预设位置处，得到结构化的健康档案报告。上述方法能够实现对用户的健康档案进行结构化存储，提高对用户的健康报告文件的利用率。告文件的利用率。告文件的利用率。

全部详细技术资料下载

【技术实现步骤摘要】
健康档案报告的生成方法、装置、存储介质及计算机设备

[0001]本专利技术涉及文字信息处理
，尤其是涉及一种健康档案报告的生成方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着互联网在线医疗技术的发展，各大在线医疗平台多获取用户的体检报告、诊疗结果等健康报告文件，采集其中的医学信息为用户建立专属的健康档案。
[0003]然而，上述的体检报告、诊疗结果等文件多为非结构化的形式存在，各大医疗平台当前的主要作法为采集非结构化的文件，人工定位并采集其中的医学信息，并将其总结归纳为健康档案。
[0004]但是，当需要对海量的非结构化的健康报告文件进行信息采集时，上述方法无法对全部的非结构化的健康报告文件进行高效的信息采集，只能实现对其中的小部分健康报告文件进行处理，并获取其中的医学信信息，从而导致对用户的健康报告文件的利用率较低。

技术实现思路

[0005]有鉴于此，本申请提供了一种健康档案报告的生成方法、装置、存储介质及计算机设备，主要目的在于解决对用户的健康报告文件的利用率较低的技术问题。
[0006]根据本专利技术的第一个方面，提供了一种健康档案报告的生成方法，该方法包括：
[0007]获取待处理文本文件，并根据所述待处理文本文件的文件类型，将所述待处理文本文件转化为结构化文本文件；
[0008]识别所述结构化文本文件中的错别字，获取所述错别字对应的正确文字，并利用所述正确文字替换所述错别字，得到纠错后的所述结构化文本文件；
[0009]识...

【技术保护点】

【技术特征摘要】
1.一种健康档案报告的生成方法，其特征在于，所述方法包括：获取待处理文本文件，并根据所述待处理文本文件的文件类型，将所述待处理文本文件转化为结构化文本文件；识别所述结构化文本文件中的错别字，获取所述错别字对应的正确文字，并利用所述正确文字替换所述错别字，得到纠错后的所述结构化文本文件；识别所述结构化文本文件中的医学实体信息，并在所述结构化文本文件中识别与所述医学实体信息对应的关联属性信息；将所述医学实体信息和与所述医学实体信息对应的关联属性信息设置在预设的健康报告因子树的预设位置处，得到结构化的健康档案报告。2.根据权利要求1所述的方法，其特征在于，所述待处理文本文件的文件类型为文字类型；则所述根据所述待处理文本文件的文件类型，将所述待处理文本文件转化为结构化文本文件，包括：对所述文字类型的待处理文本文件进行光学符号识别，得到所述待处理文本文件中的文字信息，并根据所述文字信息生成所述结构化文本文件。3.根据权利要求1所述的方法，其特征在于，所述待处理文本文件的文件类型为表格类型；则所述根据所述待处理文本文件的文件类型，将所述待处理文本文件转化为结构化文本文件，还包括：对所述表格类型的待处理文本文件进行光学符号识别，得到所述待处理文本文件中的文字信息以及单元格信息，并确定每个所述单元格信息在第一参考坐标系中的第一坐标信息，其中，所述第一参考系基于所述待处理文本文件预先设置；基于所述第一坐标信息，确定处于同一行的全部所述单元格信息，并为每个所述单元格信息内的所述文字信息设置行标签，并确定处于同一列的全部所述单元格信息，并为每个所述单元格信息内的所述文字信息设置列标签；根据所述文字信息、所述行标签和所述列标签，生成所述结构化文本文件。4.根据权利要求1所述的方法，其特征在于，所述待处理文本文件的文件类型为图表类型；则所述根据所述待处理文本文件的文件类型，将所述待处理文本文件转化为结构化文本文件，还包括：对所述图表类型的待处理文本文件进行光学符号识别，得到所述待处理文本文件中的文字信息以及图形信息，并确定每个所述文字信息和每个所述图形信息在第二参考坐标系中的第二坐标信息，其中，所述第二参考坐标系基于所述待处理文本文件预先设置；将每个所述文字信息的第二坐标信息和每个所述图形信息的第二坐标信息输入到预训练的图形文字关联确定模型中，得到与所述图形信息具有相关关系的所述文字信息，并为与同一图形信息具有相关关系的所述文字信息设置相关关系标签；根据所述文字信息和所述相关关系标签，生成结构化文本文件。5.根据权利要求4所述的方法，其特征在于，所述识别所述结构化文本文件中的医学实体信息，并在所述结构化文本文件中识别与所述医学实体信息对应的关联属性信息，包括：将所述结构化文本文件输入到预训练的医学实体识别模型中，识别出所述结构化文本文件中的医学实体信息；将所述医学实体信息和与所述医学实体信息具有相同所述行标签和/或相同所述列标
签的文字信息，以及与所述医学实体信息具有相同所述相关关系标签的文字信息入到预训练的医学实体相关属性识别模型中，识别出所述医学实体信息对应的关联属性信息。6.根据权利要求5所述的方法，其特征在于，在所述识别所述结构化文本文件中的医学实体信息，并在所述结构化文本文件中识别与所...

【专利技术属性】
技术研发人员：李家瑞，
申请(专利权)人：康键信息技术深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人