一种信息处理方法及装置制造方法及图纸

技术编号:24122345 阅读:29 留言:0更新日期:2020-05-13 03:28
本申请公开了一种信息处理方法及装置,用以解决现有技术中无法对非结构化文本的信息进行脱敏而导致增加人力成本和时间成本的问题。所述方法包括:当接收到待处理信息时,判断所述待处理信息是否为结构化文本信息;当所述待处理信息为非结构化文本信息时,从结构化文本信息中提取预设关键词,所述结构化文本信息和所述非结构化文本信息关联;判断所述待处理信息中是否存在所述预设关键词;当确定所述待处理信息中存在所述预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作。采用本申请所提供的方案,实现了对非结构化文本信息的自动屏蔽,从而减少了人力成本和时间成本。

【技术实现步骤摘要】
一种信息处理方法及装置
本申请涉及计算机领域,特别涉及一种信息处理方法及装置。
技术介绍
目前,出于科研目的,会将大量数据进行整合,例如医院的病历文本等医疗数据,将医疗数据整合进行科研是很有必要的,但是,医院的医疗数据中存在大量的敏感信息,如用户姓名,用户地址,手机号等,这些信息泄露可能会给用户带来不必要的麻烦,因此,用于科研时,医疗数据必须要经过脱敏处理,才符合科研的要求。所谓脱敏,是指对数据中的敏感信息通过脱敏规则进行数据的变形,实现敏感信息的屏蔽。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。在结构化的文本中含有敏感信息,在非结构化的文本中也包含敏感信息,然而在现有技术中,目前只能针对结构化文本中的敏感信息进行自动脱敏。而对于非结构化文本,则只能通过人工操作来进行脱敏,而人工对海量的非结构化文本进行脱敏,也需要大量的时间,增加了人力成本和时间成本,因此,如何提供一种方案,实现对非结构化文本的信息进行脱敏,从而减少人力成本和时间成本,是一亟待解决的技术问题。
技术实现思路
本申请实施例的目的在于提供一种信息处理方法及装置,用以解决现有技术中无法对非结构化文本的信息进行脱敏而导致增加人力成本和时间成本的问题。为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种信息处理方法,包括:当接收到待处理信息时,判断所述待处理信息是否为结构化文本信息;<br>当所述待处理信息为非结构化文本信息时,从结构化文本信息中提取预设关键词,所述结构化文本信息和所述非结构化文本信息关联;判断所述待处理信息中是否存在所述预设关键词;当确定所述待处理信息中存在所述预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作。本申请的有益效果在于:当待处理信息为非结构化文本信息时,可以从与非结构化文本关联的结构化文本信息中提取预设关键词;基于该预设关键词确定待处理信息中的预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,实现了对非结构化文本信息的自动屏蔽,从而减少了人力成本和时间成本。在一个实施例中,所述从结构化文本信息中提取预设关键词,包括:从结构化文本信息中获取预设字段;以所述预设字段对应的信息作为预设关键词进行提取。在一个实施例中,当所述预设关键词为住址时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,包括:获取所述待处理信息中的住址信息;判断所述住址信息中是否包含与行政区划信息相关的关键字;当所述住址信息中包含与行政区划信息相关的关键字时,根据预设的正则表达式对所述住址信息进行修改,以使所述住址信息只保留与行政区划相关的地址。本实施例的有益效果在于:在对住址信息进行屏蔽时,只屏蔽家庭地址中的详细地址,而保留了与行政区划相关的地址,从而在实现了对用户信息的保护的基础上,使脱敏后的信息相对全面。在一个实施例中,所述方法还包括:当所述住址信息中没有包含与行政区划信息相关的关键字时,根据地址字典对所述住址信息中的行政区划信息进行转换,以使转换后的住址信息中包含行政区划信息;根据预设的正则表达式对所述住址信息进行修改,以使所述住址信息只保留与行政区划相关的地址。本实施例的有益效果在于:当所述住址信息中没有包含与行政区划信息相关的关键字时,能够根据地址字典对所述住址信息中的行政区划信息进行转换,以使转换后的住址信息中包含行政区划信息;从而避免由于住址信息中没有包含与行政区划信息相关的关键字而导致住址信息无法有效屏蔽的情况。在一个实施例中,所述地址字典通过如下方式构建:获取所有行政区信息和所述行政区之间的从属关系;根据获取的行政区信息和所述行政区信息之间的从属关系构建所述地址字典,其中,所述地址字典中的最小行政区划单位为县级行政区,最大行政区划单位为省级行政区。在一个实施例中,当所述预设关键词为出生日期时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,包括:根据预设的时间格式将所述出生日期中除年份信息之外的其他信息隐藏。本实施例的有益效果在于:根据预设的时间格式将所述出生日期中除年份信息之外的其他信息隐藏,从而屏蔽了用户出生的具体日期,但是又保留了用户出生年份,从而在实现了对用户信息的保护的基础上,使脱敏后的信息相对全面。在一个实施例中,当所述预设关键词为除住址和出生日期之外的其他关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,包括:通过预设字符将所述待处理信息中的预设关键词进行替换;其中所述除住址和出生日期之外的其他关键词包括以下至少一种关键词:姓名、座机号、手机号和邮箱地址。本申请还提供一种信息处理装置,包括:第一判断模块,用于当接收到待处理信息时,判断所述待处理信息是否为结构化文本信息;提取模块,用于当所述待处理信息为非结构化文本信息时,从结构化文本信息中提取预设关键词,所述结构化文本信息和所述非结构化文本信息关联;第二判断模块,用于判断所述待处理信息中是否存在所述预设关键词;屏蔽模块,用于当确定所述待处理信息中存在所述预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作。在一个实施例中,所述提取模块,包括:第一获取子模块,用于从结构化文本信息中获取预设字段;提取子模块,用于以所述预设字段对应的信息作为预设关键词进行提取。在一个实施例中,所述屏蔽模块,包括:第二获取子模块,用于当所述预设关键词为住址时,获取所述待处理信息中的住址信息;判断子模块,用于判断所述住址信息中是否包含与行政区划信息相关的关键字;修改子模块,用于当所述住址信息中包含与行政区划信息相关的关键字时,根据预设的正则表达式对所述住址信息进行修改,以使所述住址信息只保留与行政区划相关的地址。在一个实施例中,所述装置还包括:转换模块,用于当所述住址信息中没有包含与行政区划信息相关的关键字时,根据地址字典对所述住址信息中的行政区划信息进行转换,以使转换后的住址信息中包含行政区划信息;修改模块,用于根据预设的正则表达式对所述住址信息进行修改,以使所述住址信息只保留与行政区划相关的地址。在一个实施例中,所述地址字典通过如下方式构建:获取所有行政区信息和所述行政区之间的从属关系;根据获取的行政区信息和所述行政区信息之间的从属关系构建所述地址字典,其中,所述地址字典中的最小行政区划单位为县级行政区,最大行政区划单位为省级行政区。在一个实施例中,所述屏蔽模块,包括:删除子模块,用于当所述预设关键词为出生日期时,根据预设的时间格式将所述出生日期中除年份信息之外的其他信息隐本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n当接收到待处理信息时,判断所述待处理信息是否为结构化文本信息;/n当所述待处理信息为非结构化文本信息时,从结构化文本信息中提取预设关键词,所述结构化文本信息和所述非结构化文本信息关联;/n判断所述待处理信息中是否存在所述预设关键词;/n当确定所述待处理信息中存在所述预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
当接收到待处理信息时,判断所述待处理信息是否为结构化文本信息;
当所述待处理信息为非结构化文本信息时,从结构化文本信息中提取预设关键词,所述结构化文本信息和所述非结构化文本信息关联;
判断所述待处理信息中是否存在所述预设关键词;
当确定所述待处理信息中存在所述预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作。


2.如权利要求1所述的方法,其特征在于,所述从结构化文本信息中提取预设关键词,包括:
从结构化文本信息中获取预设字段;
以所述预设字段对应的信息作为预设关键词进行提取。


3.如权利要求2所述的方法,其特征在于,当所述预设关键词为住址时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,包括:
获取所述待处理信息中的住址信息;
判断所述住址信息中是否包含与行政区划信息相关的关键字;
当所述住址信息中包含与行政区划信息相关的关键字时,根据预设的正则表达式对所述住址信息进行修改,以使所述住址信息只保留与行政区划相关的地址。


4.如权利要求3所述的方法,其特征在于,所述方法还包括:
当所述住址信息中没有包含与行政区划信息相关的关键字时,根据地址字典对所述住址信息中的行政区划信息进行转换,以使转换后的住址信息中包含行政区划信息;
根据预设的正则表达式对所述住址信息进行修改,以使所述住址信息只保留与行政区划相关的地址。


5.如权利要求4所述的方法,其特征在于,所述地址字典通过如下方式构建:
获取所有行政区信息和所述行政区之间的从属关系;
根据获取的行政区信息和所述行政区信息之间的从属关系构建所述地址字典,其中,所述地址字典中的最小行政区划单位为县级行政区,最大行政区划单位为省级行政区。


6.如权利要求2所述的方法,其特征在于,当所述预设关键词为出生日期时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,包括:
根据预设的时间格式将所述出生日期中除年份信息之外的其他信息隐藏。

...

【专利技术属性】
技术研发人员:郑永升石磊其他发明人请求不公开姓名
申请(专利权)人:杭州依图医疗技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1