一种面向医疗文本的患者隐私信息脱敏方法技术

技术编号：21892682 阅读：29 留言：0更新日期：2019-08-17 14:48

本发明专利技术提供一种面向医疗文本的患者隐私信息脱敏方法，包括以下步骤：提取患者医疗文本，根据出现的所有患者隐私数据将患者隐私分为三类：数字型、日期型和命名实体型；针对数字型隐私数据设计一套正则表达式，去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号等数字型信息；针对日期型隐私数据设计随机迁移算法，识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间；针对命名实体类型隐私数据采用隐马尔科夫模型，去除患者姓名、医生姓名、医院名称等隐私信息。该方法有效去除医疗文本中包含的患者个人敏感信息，保证了在医疗数据发布过程中患者的隐私安全，对医疗数据共享、区域医疗卫生信息大数据平台的建设有重要意义。

A Desensitization Method for Patients'Privacy Information Oriented to Medical Text

全部详细技术资料下载

【技术实现步骤摘要】
一种面向医疗文本的患者隐私信息脱敏方法
本专利技术涉及到生物医学和信息
，更为具体地，涉及一种面向医疗文本的患者隐私信息脱敏方法。
技术介绍
医疗数据主要分为两种类型：结构化数据与非结构化数据。其中结构化数据以二维表的形式表示，每行表示一条记录，每列表示一个属性。结构化数据脱敏主要采用K匿名方法，首先直接删除标识符列，然后采用抑制或泛化的方法保证每一条记录至少和其他K-1条记录在准标识符上一致，大大减小了链接攻击。结构化数据的隐私保护研究已比较成熟，取得了良好的效果。对于非结构化数据，通常表现为医疗文书，由于医生书写习惯、患者病情以及文书类型的不同，隐私信息往往分布在自由文本的字里行间。传统的隐私保护方法是利用一名或两名有经验的临床医师通过阅读电子病历进行手工去标识，但是人工方式耗费大量的人力成本，且错检漏检情况普遍存在，已不适用于数据爆炸的时代。目前国内外医疗文本的脱敏方法主要分为：基于规则和词典的方法、基于机器学习的方法以及两者的结合。麻省理工学院发布的重症医学数据集MIMIC针对医疗文本的数据保护技术主要是基于规则和词典的方式，利用正则表达式定位患者ID、日期等数据，同时患者姓名识别模块通过构建常用人名字典并基于模糊匹配实现人名的去除。基于规则和字典的方法具有速度快的优点，是缺少大量熟语料标注情况下的最有效方式，但是精确率和召回率非常依赖词典的好坏。基于机器学习的系统通常将匿名化任务转换成词项分类和序列标注的问题，因此很多监督学习算法，如支持向量机、决策树、条件随机场等被广泛使用。在大量训练语料存在的情况下，机器学习的算法通常优于基于规则的算法...

【技术保护点】
1.一种面向医疗文本的患者隐私信息脱敏方法，其特征在于采用了以下步骤：S1：提取患者的医疗文本，根据其中出现的所有患者隐私数据将患者隐私分为三类：数字型、日期型和命名实体型；S2：针对数字型隐私数据设计了一套正则表达式，去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号这些数字型信息；S3：针对日期型隐私数据设计了随机迁移算法，识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间；S4：针对命名实体类型隐私数据采用了隐马尔科夫模型，去除患者姓名、医生姓名、医院名称这些隐私信息。

【技术特征摘要】
1.一种面向医疗文本的患者隐私信息脱敏方法，其特征在于采用了以下步骤：S1：提取患者的医疗文本，根据其中出现的所有患者隐私数据将患者隐私分为三类：数字型、日期型和命名实体型；S2：针对数字型隐私数据设计了一套正则表达式，去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号这些数字型信息；S3：针对日期型隐私数据设计了随机迁移算法，识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间；S4：针对命名实体类型隐私数据采用了隐马尔科夫模型，去除患者姓名、医生姓名、医院名称这些隐私信息。2.根据权利要求1所述的一种面向医疗文本的患者隐私信息脱敏方法，其特征在于，步骤S2还采用了上下文语义分析筛选混淆数字，将与正则表达式匹配成功的数字型信息的上下文与建立的常用医疗术语词典进行模糊查询，若查询成功，则认为匹配的数字型信息为有效的医疗信息，予以保留，否则去除该句中匹配的数字型信息。3.根据权利要求2所述的一种面向医疗文本的患者隐私信息脱敏方法，其特征在于，步骤S3中每一个病人对应一个随机数，将该病人所有有关的日期加上该随机数，匿名化具体日期的同时保证医疗记录事...

【专利技术属性】
技术研发人员：郑西川，王阳阳，傅一旻，
申请(专利权)人：上海市第六人民医院，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人