一种用于对病历进行自动脱敏的系统及应用技术方案

技术编号:24289908 阅读:62 留言:0更新日期:2020-05-26 20:09
本发明专利技术公开了一种用于对病历进行自动脱敏的系统及应用。所述系统,包括:模板生成模块,用于将不同版面类型样本病历单进行分类,并按类型分别获取对应每一类型的敏感信息区域,以生成对应不同类型样本病历单的不同类型的病历模板;训练模块,用于将所述每一类病历模板对应的样本病历单输入至卷积神经网络中训练以获取用于对病历单进行分类的神经网络模型。脱敏模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板,并根据匹配的病历模板对所述待脱敏病历单进行待脱敏区域的标注以及脱敏处理,以获取脱敏处理后的病历。由上,本申请能够实现高效准确地对病历进行脱敏。

An automatic desensitization system for medical records and its application

【技术实现步骤摘要】
一种用于对病历进行自动脱敏的系统及应用
本专利技术涉及模式识别、机器学习、卷积神经网络等
,特别涉及一种用于对病历进行自动脱敏的系统及应用。
技术介绍
在处理病历及采集信息的过程中,为避免病人的隐私泄露,需要将一些敏感的私人信息模糊处理,如病人姓名,住址,联系方式等,以供其他非医疗人员(比如数据分析人员)学习调用信息。随着如今就医人数的增加及疾病种类的多样化,利用人工进行病历脱敏在效率与可靠性上都表现出了很大的局限性。由于不同医院及科室的病历单一般版面不同,缺乏统一出信息的结构标准。而如果直接利用现有的光标识别技术对病历全部内容进行识别进而进行脱敏处理,在识别相同的信息会被不断重复识别而造成不必要的耗时,且由于识别时比较粗略,识别的准确率有所欠缺。因此,现有技术不能够实现高效准确的对病历进行自动脱敏。因此,目前亟需一种用于对病历进行自动脱敏的系统,以实现高效准确的对病历进行自动脱敏。
技术实现思路
有鉴于此,本申请提供一种用于对病历进行自动脱敏的系统,以实现高效准确的对病历进行脱敏。本申请提供的用于对病历进行自动脱敏的系统,包括:模板生成模块,用于将不同版面类型样本病历单进行分类,并按类型分别获取对应每一类型的敏感信息区域,以生成对应不同类型样本病历单的不同类型的病历模板;训练模块,用于将所述每一类病历模板对应的样本病历单输入至卷积神经网络中训练以获取用于对病历单进行分类的神经网络模型。脱敏模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板,并根据匹配的病历模板对所述待脱敏病历单进行待脱敏区域的标注以及脱敏处理,以获取脱敏处理后的病历。由上,本申请的自动脱敏系统可以实现高效准确地对不同类型的病历进行自动脱敏,以避免病人的隐私泄露。既克服了现有技术中利用人工进行病历脱敏在效率与可靠性上的局限性的缺陷;又通过本申请的上述各个模块的功能,克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。优选地,所述模板生成模块,具体用于:采集子模块,用于采集不同医院的不同版面类型的样本病历单;标注子模块,用于标注出所述样本病历单中的敏感信息区域;分类子模块,用于根据已标注的样本病历单中的不同版面结构及敏感信息区域所在位置将样本病历单分成不同类型的样本病历单;记录子模块,用于记录每一类型样本病历单的被标注的敏感信息区域的坐标值;模板生成子模块,用于对于每一类型样本病历单:根据每一类型样本病历单中的每个样本病历单的被标注的敏感信息区域的坐标值,将所含面积最大的敏感信息区域作为每一类型样本病历单的最终敏感信息区域,并将标注有所述最终敏感信息区域的样本病历单作为该类型样本病历单的病历模板。由上,有利于生成对应不同类型样本病历单的不同类型的病历模板。其中,模板生成子模块,将所含面积最大的敏感信息区域作为每一类型病历模板的最终的敏感信息区域。有利于保证在对病历进行脱敏处理时,敏感信息能够充分包含在被脱敏的区域中。优选地,所述模板生成模块,还包括:图像预处理子模块,用于对所述标注子模块标注后的样本病历单进行去噪与二值化处理。由上,所述去噪处理能够去除与敏感信息无关的噪点,所述二值化处理有利于在对图像做进一步处理时,图像的集合性质只与像素值为0或255的点的位置有关,不再涉及像素的多级值,使处理变得简单,而且数据的处理和压缩量小。优选地,所述模板生成模块,还包括:样本扩充子模块,将所述记录子模块记录的每一类型的样本病历单进行仿射变换,以获取指定数量的样本病历单。由上,有利于扩充用于训练的样本病历单的数量。优选地,所述训练模块,具体用于:将所述每一类型样本病历单及其所述类型输入至卷积神经网络的输入层;所述卷积神经网络的卷积层提取所述样本病历单的特征图;所述卷积神经网络的池化层对所述特征图进行压缩,以及用于提取主要特征;所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理,并进行分类处理以获取用于对病历单进行分类的神经网络模型。由上,有利于生成用于针对不同版面类型病历单分类和初始待脱敏区域标注的神经网络模型。其中,将所含面积最大的敏感信息区域作为每一类型病历模板的最终的敏感信息区域。有利于保证在对病历进行脱敏处理时,敏感信息能够充分包含在被脱敏的区域中。优选地,所述卷积神经网络的卷积层提取所述病历模板的特征图与所述样本病历单之间的映射关系式为:xm=f(Σxmi*kmij+bmj)其中,所述xm表示第m层的输出向量;所述xmi表示第m层第i个节点的输入向量;所述kmij表示第m层第i个节点需要训练的滤波器参数;所述bmj表示第m层第i个借口点需要训练的基;所述m表示当前层数;所述i表示当前节点;所述j表示当前层。由上,有利于更好的提取所述病历模板的特征图。优选地,所述卷积神经网络的全连接层的用于分类时的平方代价函数为:EN=ΣNΣc(tkn-ykn)2其中,所述N表示样本病历单的个数,所述EN表示输出的第N个样本医嘱单的类型;所述c表示病历模版的类型的数量,所述k表示所述样本病历单的版面类型及所述卷积神经网络的全连接层输出的病历模板类型上的维度,所述t表示第n个样本对应标签的第k维,所述y表示第n个样本对应网络输出的第k维。由上,有利于获取最优的分类。优选地,所述脱敏模块,具体包括:匹配子模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板;标注子模块,用于根据所述病历模板对所述带脱敏病历进行初始待脱敏区域的标注;定位子模块,用于利用图像处理技术,对初始待脱敏区域进行精确定位;脱敏子模块,用于对每个精确定位后的待脱敏区域进行单独的脱敏处理。由上,本申请通过用于针对不同版面类型病历的特征提取的神经网络模型获取带脱敏的病历的初始待脱敏区域,并进一步精确定位及脱敏。克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。优选地,所述敏感信息至少包括但不限于以下其一:姓名、住址、联系方式。由上,本申请敏感信息不限于上述信息,还包括其他的涉及个人隐私的信息。基于上述系统,本申请还提供一种对病历进行自动脱敏的方法,包括:A、获取待脱敏的原始病历图片;B、对所述待脱敏的原始病历图片进行图片质量判定,保留分辨率高于指定阈值的原始病历图片;C、对所述原始病历图片进行去噪与二值化处理,以获取处理后的原始病历图片的二值图像;D、根据所述原始病历图片的二值图像,通过所述用于对病历单进行分类的神经网络模型对所述原始病历图片进行分类以获取其所属的病历的类型;E、根据所述病历本文档来自技高网...

【技术保护点】
1.一种用于对病历进行自动脱敏的系统,其特征在于,包括:/n模板生成模块,用于将不同版面类型样本病历单进行分类,并按类型分别获取对应每一类型的敏感信息区域,以生成对应不同类型样本病历单的不同类型的病历模板;/n训练模块,用于将所述每一类病历模板对应的样本病历单输入至卷积神经网络中训练以获取用于对病历单进行分类的神经网络模型;/n脱敏模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板,并根据匹配的病历模板对所述待脱敏病历单进行待脱敏区域的标注以及脱敏处理,以获取脱敏处理后的病历。/n

【技术特征摘要】
1.一种用于对病历进行自动脱敏的系统,其特征在于,包括:
模板生成模块,用于将不同版面类型样本病历单进行分类,并按类型分别获取对应每一类型的敏感信息区域,以生成对应不同类型样本病历单的不同类型的病历模板;
训练模块,用于将所述每一类病历模板对应的样本病历单输入至卷积神经网络中训练以获取用于对病历单进行分类的神经网络模型;
脱敏模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板,并根据匹配的病历模板对所述待脱敏病历单进行待脱敏区域的标注以及脱敏处理,以获取脱敏处理后的病历。


2.根据权利要求1所述的系统,其特征在于,所述模板生成模块,具体包括:
采集子模块,用于采集不同医院的不同版面类型的样本病历单;
标注子模块,用于标注出所述样本病历单中的敏感信息区域;
分类子模块,用于根据已标注的样本病历单中的不同版面结构及敏感信息区域所在位置将样本病历单分成不同类型的样本病历单;
记录子模块,用于记录每一类型样本病历单的被标注的敏感信息区域的坐标值;
模板生成子模块,用于对于每一类型样本病历单:根据每一类型样本病历单中的每个样本病历单的被标注的敏感信息区域的坐标值,将能够覆盖当前类型的样本病历单的各个被标注的敏感信息区域的面积最大的敏感信息区域作为每一类型样本病历单的最终敏感信息区域,并将标注有所述最终敏感信息区域的样本病历单作为该类型样本病历单的病历模板。


3.根据权利要求2所述的系统,其特征在于,所述模板生成模块,还包括:
图像预处理子模块,用于对所述标注子模块标注后的样本病历单进行去噪与二值化处理。


4.根据权利要求3所述的系统,其特征在于,所述模板生成模块,还包括:
样本扩充子模块,将所述记录子模块记录的每一类型的样本病历单进行仿射变换,以获取指定数量的样本病历单。


5.根据权利要求4所述的系统,其特征在于,所述训练模块包括输入子模块和一卷积神经网络:
所述输入子模块,用于将所述每一类型样本病历单及其所述类型输入至卷积神经网络的输入层;
所述卷积神经网络的卷积层用于提取所述样本病历单的特征图;
所述卷积神经网络的池化层用于对所述特征图进行压缩,以及用于提取主要特征;
所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理,并进行分类处理以获取用于...

【专利技术属性】
技术研发人员:罗立刚康悦李津辰罗翔凤刘晓华
申请(专利权)人:零氪医疗智能科技广州有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1