一种面向医疗文本的患者隐私信息脱敏方法技术

技术编号:21892682 阅读:29 留言:0更新日期:2019-08-17 14:48
本发明专利技术提供一种面向医疗文本的患者隐私信息脱敏方法,包括以下步骤:提取患者医疗文本,根据出现的所有患者隐私数据将患者隐私分为三类:数字型、日期型和命名实体型;针对数字型隐私数据设计一套正则表达式,去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号等数字型信息;针对日期型隐私数据设计随机迁移算法,识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间;针对命名实体类型隐私数据采用隐马尔科夫模型,去除患者姓名、医生姓名、医院名称等隐私信息。该方法有效去除医疗文本中包含的患者个人敏感信息,保证了在医疗数据发布过程中患者的隐私安全,对医疗数据共享、区域医疗卫生信息大数据平台的建设有重要意义。

A Desensitization Method for Patients'Privacy Information Oriented to Medical Text

【技术实现步骤摘要】
一种面向医疗文本的患者隐私信息脱敏方法
本专利技术涉及到生物医学和信息
,更为具体地,涉及一种面向医疗文本的患者隐私信息脱敏方法。
技术介绍
医疗数据主要分为两种类型:结构化数据与非结构化数据。其中结构化数据以二维表的形式表示,每行表示一条记录,每列表示一个属性。结构化数据脱敏主要采用K匿名方法,首先直接删除标识符列,然后采用抑制或泛化的方法保证每一条记录至少和其他K-1条记录在准标识符上一致,大大减小了链接攻击。结构化数据的隐私保护研究已比较成熟,取得了良好的效果。对于非结构化数据,通常表现为医疗文书,由于医生书写习惯、患者病情以及文书类型的不同,隐私信息往往分布在自由文本的字里行间。传统的隐私保护方法是利用一名或两名有经验的临床医师通过阅读电子病历进行手工去标识,但是人工方式耗费大量的人力成本,且错检漏检情况普遍存在,已不适用于数据爆炸的时代。目前国内外医疗文本的脱敏方法主要分为:基于规则和词典的方法、基于机器学习的方法以及两者的结合。麻省理工学院发布的重症医学数据集MIMIC针对医疗文本的数据保护技术主要是基于规则和词典的方式,利用正则表达式定位患者ID、日期等数据,同时患者姓名识别模块通过构建常用人名字典并基于模糊匹配实现人名的去除。基于规则和字典的方法具有速度快的优点,是缺少大量熟语料标注情况下的最有效方式,但是精确率和召回率非常依赖词典的好坏。基于机器学习的系统通常将匿名化任务转换成词项分类和序列标注的问题,因此很多监督学习算法,如支持向量机、决策树、条件随机场等被广泛使用。在大量训练语料存在的情况下,机器学习的算法通常优于基于规则的算法,但是获得大规模医疗领域的熟语料是非常困难的,而且有些隐私数据在医疗文本出现的频率不高,这些数据稀疏性也使机器学习的结果变差。鉴于此需要一种高效的医疗文本数据脱敏方法,在保证患者隐私安全的情况下尽可能不损失医疗文本包含的信息,解决在数据发布时患者隐私泄露问题的掣肘,为我国医联体、区域医疗卫生信息平台的建设提供安全保障。
技术实现思路
本专利技术的目的是一种面向医疗文本的患者隐私信息脱敏方法,用于对数据发布和共享时患者隐私数据的保护,为我国区域医疗信息平台的建设提供安全保障。为了实现上述目的,本专利技术提供以下技术方案:一种面向医疗文本的患者隐私信息脱敏方法,包括以下步骤:S1:提取患者的医疗文本,根据其中出现的所有患者隐私数据将患者隐私分为三类:数字型、日期型和命名实体型;S2:针对数字型隐私数据设计了一套正则表达式,去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号等数字型信息;S3:针对日期型隐私数据设计了随机迁移算法,识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间;S4:针对命名实体类型隐私数据采用了隐马尔科夫模型,去除患者姓名、医生姓名、医院名称等隐私信息;进一步的,步骤S2还采用了上下文语义分析筛选混淆数字,将与正则表达式匹配成功的数字型信息的上下文与建立的常用医疗术语词典进行模糊查询,若查询成功,则认为匹配的数字型信息为有效的医疗信息,予以保留,否则去除该句中匹配的数字型信息。进一步的,步骤S3中每一个病人对应一个随机数,将该病人所有有关的日期加上该随机数,匿名化具体日期的同时保证医疗记录事件的相对顺序不变,最大程度保留医疗信息。进一步的,步骤S3产生的随机数满足以下三个特性:对365取余的结果小于10,保证日期迁移后季度不变;7的倍数,保证迁移后医疗数据仍保留周期关系;大于18250,即迁移到500年之后,保证迁移日期和现实日期不会混淆。进一步的,步骤S4包含以下内容:中文分词:将采集到的医疗文本按最大匹配法进行初步分词,利用统计方法建造专用的医疗词典,对初步分词结果消除歧义;角色标注:根据词汇出现的位置、语义等设计一组代表不同词汇的隐藏状态,称之为角色;期望最大化算法:根据角色标注的结果初步计算隐马尔科夫模型的初始概率矩阵、转移矩阵和发射矩阵,然后利用期望最大化算法进行无监督学习,训练隐马尔科夫模型,使三个矩阵收敛;维特比算法:给出一个新文本,首先进行中文分词,然后根据分词结果和训练好的隐马尔科夫模型计算对应该分词结果概率最大的隐藏状态序列,最后对隐藏状态序列进行模式识别,去除特定命名实体隐藏状态序列对应的词汇。有益效果:本专利技术提供了一种面向医疗文本的患者隐私信息脱敏方法,本专利技术提供的数据脱敏方法能够对医疗文本中出现的数字型、日期型以及命名实体类型的患者隐私数据进行匿名化,在数据发布时能自动地处理文本类型数据,避免了由专业人员手动去标识的繁重任务。该方法有效去除了医疗文本中包含的患者个人敏感信息,保证了在医疗数据发布过程中患者的隐私安全,对医疗数据共享、区域医疗卫生信息大数据平台的建设有重要意义。附图说明图1为本专利技术所述面向医疗文本的数据脱敏方法的处理流程示意图。图2为本专利技术所述面向医疗文本的数据脱敏方法的隐马尔科夫模型示意图。具体实施方式下面结合具体实施例来进一步描述本专利技术,但实施例仅是范例性的,并不对本专利技术的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本专利技术的精神和范围下可以对本专利技术技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本专利技术的保护范围内。下面结合具体的实施例对本专利技术做进一步地说明,以更好地理解本专利技术。一本专利技术提供一种面向医疗文本的数据脱敏方法,包括以下步骤:S1:提取患者的医疗文本,根据其中出现的所有患者隐私数据将患者隐私分为三类:数字型、日期型和命名实体型;S2:针对数字型隐私数据设计了一套正则表达式,去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号等数字型信息;S3:针对日期型隐私数据设计了随机迁移算法,识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间;S4:针对命名实体类型隐私数据采用了隐马尔科夫模型,去除患者姓名、医生姓名、医院名称等隐私信息;具体地,本专利技术提供的面向医疗文本的数据脱敏系统包含以下几个模块:1.数字型脱敏模块电子病历中的数字类型隐私信息多表现为患者住院号、病历号、身份证号、电话号码和邮编,数字类型的隐私信息可以方便地用正则表达式识别出来。例如,我国的身份证号是形式较为固定的特征组合码,由十七位数字本体码和一位数字校验码组成。可使用如下正则表达式(\d{6})(\d{4})(\d{2})(\d{2})(\d{3})([0-9]|X)识别,排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,包括年月日,三位数字顺序码和一位数字校验码。虽然身份证号根据上述正则表达式可容易地识别出来,但是极易与心电图的影像编码混淆。为保证数字类型隐私信息的精确率,本文利用正则表达式筛选出候选集后通过上下文语义判断进一步筛选出数字类型信息,若候选词前后5个词出现影像、药品或者标识医疗单位的字样,则将其从候选结果集删除。2.日期型脱敏模块日期类型的隐私数据在电子病历里非常常见,例如出入院日期、检查时间、出生和死亡日期等,这些数据直接关系到病人的病程变化,是隐私保护的重要组成部分。日期类型在表达形式上也较为固定,通常为“xxxx-xx-xx”、“xxxx/xx/xx”或“xxxx年xx月xx日”等格式,部分日期类型也可能不包括天数或月份,这些都可通过设计正则表本文档来自技高网
...

【技术保护点】
1.一种面向医疗文本的患者隐私信息脱敏方法,其特征在于采用了以下步骤:S1:提取患者的医疗文本,根据其中出现的所有患者隐私数据将患者隐私分为三类:数字型、日期型和命名实体型;S2:针对数字型隐私数据设计了一套正则表达式,去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号这些数字型信息;S3:针对日期型隐私数据设计了随机迁移算法,识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间;S4:针对命名实体类型隐私数据采用了隐马尔科夫模型,去除患者姓名、医生姓名、医院名称这些隐私信息。

【技术特征摘要】
1.一种面向医疗文本的患者隐私信息脱敏方法,其特征在于采用了以下步骤:S1:提取患者的医疗文本,根据其中出现的所有患者隐私数据将患者隐私分为三类:数字型、日期型和命名实体型;S2:针对数字型隐私数据设计了一套正则表达式,去除包含患者年龄、身份证号、联系方式、邮政编码、病人住院号这些数字型信息;S3:针对日期型隐私数据设计了随机迁移算法,识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间;S4:针对命名实体类型隐私数据采用了隐马尔科夫模型,去除患者姓名、医生姓名、医院名称这些隐私信息。2.根据权利要求1所述的一种面向医疗文本的患者隐私信息脱敏方法,其特征在于,步骤S2还采用了上下文语义分析筛选混淆数字,将与正则表达式匹配成功的数字型信息的上下文与建立的常用医疗术语词典进行模糊查询,若查询成功,则认为匹配的数字型信息为有效的医疗信息,予以保留,否则去除该句中匹配的数字型信息。3.根据权利要求2所述的一种面向医疗文本的患者隐私信息脱敏方法,其特征在于,步骤S3中每一个病人对应一个随机数,将该病人所有有关的日期加上该随机数,匿名化具体日期的同时保证医疗记录事...

【专利技术属性】
技术研发人员:郑西川王阳阳傅一旻
申请(专利权)人:上海市第六人民医院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1