【技术实现步骤摘要】
基于SNOMED-CT的医疗文本文档脱敏方法及系统
本专利技术属于生物医学和信息
,涉及医疗文本文档脱敏方法及系统,尤其是一种基于SNOMED-CT的医疗文本文档脱敏方法及系统。
技术介绍
医疗物联网(IoMT)技术的发展推进了医疗服务、医疗保健的普及和发展。许多基于IoMT的工具、软件和设施已用于远程健康跟踪、身体恢复锻炼、慢性病人群和老年人群的护理。当健康数据关联到具体的个体时,若处理不当,可能会引发严重的用户隐私问题。在医学领域内已经制定了关于隐私保护的正式条例,如《健康保险携带和责任法案》(HIPAA)规定了在医疗文件允许发布之前应删除个人可识别信息;美国许多州和联邦法律也规定,在向第三方发布医疗记录之前,必须对艾滋病状况、药物或酒精滥用以及精神健康状况等因素进行脱敏。医疗文本中很多文本术语在语义上都是相关的,单纯删除或涂黑敏感术语(如艾滋病)可能会提高潜在攻击者的警觉性,并且未处理的语义相关术语(如免疫系统、流感和无保护的性行为)可能会增大敏感术语被揭露的风险。因此,如何用语义泛化的形式来处理 ...
【技术保护点】
1.一种基于SNOMED-CT的医疗文本文档脱敏方法,其特征在于:包括以下步骤:/n步骤1、根据隐私要求,确定医疗文本脱敏系统的脱敏阈值;/n步骤2、对待处理的医疗文本文档进行预处理,得到名词列表;/n步骤3、根据步骤1获得的医疗文本脱敏系统的脱敏阈值,并基于SNOMED-CT的语义相似度的计算方法,将步骤2中获得的名词列表进行敏感术语检测和消毒,得到脱敏后的文档。/n
【技术特征摘要】
1.一种基于SNOMED-CT的医疗文本文档脱敏方法,其特征在于:包括以下步骤:
步骤1、根据隐私要求,确定医疗文本脱敏系统的脱敏阈值;
步骤2、对待处理的医疗文本文档进行预处理,得到名词列表;
步骤3、根据步骤1获得的医疗文本脱敏系统的脱敏阈值,并基于SNOMED-CT的语义相似度的计算方法,将步骤2中获得的名词列表进行敏感术语检测和消毒,得到脱敏后的文档。
2.根据权利要求1所述的一种基于SNOMED-CT的医疗文本文档脱敏方法,其特征在于:所述步骤1的具体步骤包括:
(1)将当前有关医疗数据隐私的法律作为隐私要求,将其在SNOMED-CT中的不同同义词及以其为祖先的所有术语作为敏感术语列表进行输入,将敏感术语列表称为S;
(2)将敏感术语列表S中包含的术语两两进行相似度计算,选取其中相似度最小的两个术语之间的相似性度量值来作为该框架的脱敏阈值τ。
3.根据权利要求1所述的一种基于SNOMED-CT的医疗文本文档脱敏方法,其特征在于:所述步骤2的具体方法为:
输入待处理的医疗文本文档,对该医疗文本文档进行预处理,首先识别和删除否定词和不确定词,然后提取名词和名词短语,之后再提词干,最后进行去重等操作后得到名词列表T。
4.根据权利要求1所述的一种基于SNOMED-CT的医疗文本文档脱敏方法,其特征在于:所述步骤3的具体步骤包括:
(1)使用基于SNOMED-CT的语义相似度的计算方法,计算名词列表T中的术语语义距离,使用脱敏阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S中的各术语的语义距离均大于τ,进而得到一级敏感词列表;
(2)将步骤3的第(1)步标记的一级敏感词列表作为敏感术语列表S1,使用基于SNOMED-CT的语义相似度的计算方法,计算名词列表T中除去一级敏感词后,剩下词语与敏感术语列表S1的语义距离,使用消毒阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S1中的各术语的语义距离均大于τ,以消除对于上述敏感词的披露风险,进而得到二级敏感词列表S2;
(3)对二级敏感词列表进行相邻术语拼接检测,并使用基于SNOMED-CT的语义相似度的计算方法,计算相邻拼接术语的语义距离,使用消毒阈值τ...
【专利技术属性】
技术研发人员:戴敏,吕晓云,朱森,
申请(专利权)人:天津理工大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。