信息脱敏处理方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:36604128 阅读:37 留言:0更新日期:2023-02-04 18:23
本申请提供一种信息脱敏处理方法、装置、计算机设备及可读存储介质,包括:接收病历图片,提取病历图片的属性信息;若能够根据属性信息确定病历图片的病历类型,则从模板库中获取相应于病历类型的脱敏模板;若无法根据属性信息确定病历图片的病历类型,则通过裁剪规则从病历图片上裁切标识图片,对标识图片进行文本识别得到图片文本信息,及对图片文本信息进行命名实体识别得到命名词组;若能够根据命名词组确定病历图片的病历类型,则从模板库中获取相应于病历类型的脱敏模板;基于脱敏模板对病历图片进行脱敏处理得到脱敏图片。本申请不仅提高了脱敏处理的效率,还在面对大量的病历图片的脱敏作业时,仍然可以保持较高的准确度。度。度。

【技术实现步骤摘要】
信息脱敏处理方法、装置、计算机设备及可读存储介质


[0001]本申请涉及数据处理
,尤其涉及一种信息脱敏处理方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]病案记录了患者的整个诊疗过程,是非常重要的医学资料,在质量管理、诊疗水平提升、临床教学和科研上都有举足轻重的作用。目前是纸质患者病历和患者病历数字化翻拍共存时期,在产生的各种图片类型病历中在科研以及实验中都会作为重要的数据分析依据,在对这些资源进行使用时,就需要对图片上的敏感信息进行不同维度不同程度的脱敏处理,以在保障用户隐私安全前提下使用。
[0003]然而,专利技术人发现,当前对病历信息中的敏感信息的识别,及对其进行脱敏处理的操作通常是采用人工作业,不仅效率缓慢,而且在面对大量病历图片需要脱敏的情况时,人工作业很容易因长时间作业造成脱敏准确度低下的情况发生。

技术实现思路

[0004]本申请提供的信息脱敏处理方法、装置、计算机设备及可读存储介质,用以解决当前脱敏处理效率缓慢,以及在面对大量病历图片需要脱敏的情况时,脱敏准确度低下的情况发生的问题。
[0005]第一方面,本申请提供一种信息脱敏处理方法,包括:
[0006]接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;
[0007]若能够根据所述属性信息确定所述病历图片的病历类型,则从预置的模板库中获取相应于所述病历类型的脱敏模板;
[0008]若无法根据所述属性信息确定所述病历图片的病历类型,则通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;
[0009]若能够根据所述命名词组确定所述病历图片的病历类型,则从所述模板库中获取相应于所述病历类型的脱敏模板;
[0010]基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
[0011]上述方案中,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息之前,所述方法还包括:
[0012]旋转所述病历图片以调整所述病历图片的展示角度,使所述病历图片中文字的排列方向与水平方向一致。
[0013]上述方案中,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,包括:
[0014]提取所述裁剪规则中的位置参数和第一裁剪参数,根据所述第一裁剪参数对所述
病历图片上相应于所述位置参数的部分进行裁剪得到裁切图片;
[0015]执行OCR识别进程,用于对裁切图片进行OCR识别得到反映所述裁切图片中文字内容的识别文本信息,对所述识别文本信息进行去噪处理得到图像文本信息;
[0016]若确定所述图像文本信息的内容不少于预置的文本阈值,则将所述裁切图片设为所述裁切标识图片;
[0017]若确定所述图像文本信息的内容为空,或所述图像文本信息的内容的数据量少于所述文本阈值,则调整所述第一裁剪参数得到第二裁剪参数,根据所述第二裁剪参数对所述病历数据进行裁剪得到裁切图片并执行所述OCR识别进程。
[0018]上述方案中,所述对所述图片文本信息进行命名实体识别得到命名词组,包括:
[0019]对所述图片文本信息进行分词处理得到至少一个文本词汇;
[0020]对所述文本词汇进行向量化处理得到至少一个词汇向量;
[0021]对所述词汇向量进行命名实体识别得到所述命名词组,其中,所述命名词组是指由至少一个命名实体按照预置的排列规则所构建的词语组合。
[0022]上述方案中,所述基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片,包括:
[0023]识别所述病历图片中的两个锚点,其中,所述锚点是预设在所述病历图片中位于同一行上的两个标记点;
[0024]连接所述两个锚点形成连接线,计算所述连接线与水平方向之间的夹角,将所述夹角设为偏转角度;
[0025]根据所述偏转角度转动所述病历图片使所述连接线处于所述水平方向;
[0026]将所述脱敏模板加载在所述病历图片的上一层,识别所述病历图片上与所述脱敏模板中敏感标注对应的敏感位置;
[0027]对所述病历图片上相应于所述敏感位置的部分进行颜色覆盖,对所述病历图片进行脱敏处理得到脱敏图片。
[0028]上述方案中,所述对所述图片文本信息进行命名实体识别得到命名词组之后,所述方法还包括:
[0029]若无法根据所述命名词组确定所述病历图片的病历类型,则对所述病历图片进行文本识别得到病历文本信息,识别所述病历文本信息中的敏感信息,并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
[0030]上述方案中,所述对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片之后,所述方法还包括:
[0031]对所述病历文本信息进行命名实体识别得到命名词组,将所述敏感信息在所述病历图片上的位置信息设为脱敏位置,将所述命名词组录入预置的空白模板中以作为所述空白模板的病历类型,及将所述脱敏位置载入所述空白模板中使所述空白模板转为新增的脱敏模板,将所述新增的脱敏模板录入所述模板库中。
[0032]第二方面,本申请提供一种信息脱敏处理方法,包括:
[0033]输入提取模块,用于接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;
[0034]属性模板模块,用于在能够根据所述属性信息确定所述病历图片的病历类型时,
从预置的模板库中获取相应于所述病历类型的脱敏模板;
[0035]命名词组模块,用于在无法根据所述属性信息确定所述病历图片的病历类型时,通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;
[0036]词组模板模块,用于在能够根据所述命名词组确定所述病历图片的病历类型时,从所述模板库中获取相应于所述病历类型的脱敏模板;
[0037]脱敏处理模块,用于基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
[0038]第三方面,本申请提供一种计算机设备,包括:处理器以及与所述处理器通信连接的存储器;
[0039]所述存储器存储计算机执行指令;
[0040]所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求上述的信息脱敏处理方法。
[0041]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述的信息脱敏处理方法。
[0042]第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的信息脱敏本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息脱敏处理方法,其特征在于,包括:接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;若能够根据所述属性信息确定所述病历图片的病历类型,则从预置的模板库中获取相应于所述病历类型的脱敏模板;若无法根据所述属性信息确定所述病历图片的病历类型,则通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;若能够根据所述命名词组确定所述病历图片的病历类型,则从所述模板库中获取相应于所述病历类型的脱敏模板;基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。2.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息之前,所述方法还包括:旋转所述病历图片以调整所述病历图片的展示角度,使所述病历图片中文字的排列方向与水平方向一致。3.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,包括:提取所述裁剪规则中的位置参数和第一裁剪参数,根据所述第一裁剪参数对所述病历图片上相应于所述位置参数的部分进行裁剪得到裁切图片;执行OCR识别进程,用于对裁切图片进行OCR识别得到反映所述裁切图片中文字内容的识别文本信息,对所述识别文本信息进行去噪处理得到图像文本信息;若确定所述图像文本信息的内容不少于预置的文本阈值,则将所述裁切图片设为所述裁切标识图片;若确定所述图像文本信息的内容为空,或所述图像文本信息的内容的数据量少于所述文本阈值,则调整所述第一裁剪参数得到第二裁剪参数,根据所述第二裁剪参数对所述病历数据进行裁剪得到裁切图片并执行所述OCR识别进程。4.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述对所述图片文本信息进行命名实体识别得到命名词组,包括:对所述图片文本信息进行分词处理得到至少一个文本词汇;对所述文本词汇进行向量化处理得到至少一个词汇向量;对所述词汇向量进行命名实体识别得到所述命名词组,其中,所述命名词组是指由至少一个命名实体按照预置的排列规则所构建的词语组合。5.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片,包括:识别所述病历图片中的两个锚点,其中,所述锚点是预设在所述病历图片中位于同一行上的两个标记点;连接所述两个锚点形成连接线,计算...

【专利技术属性】
技术研发人员:衡反修张志立庞娟江旻
申请(专利权)人:北京肿瘤医院北京大学肿瘤医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1