一种自动检测文档敏感信息的方法和应用技术

技术编号:21432273 阅读:65 留言:0更新日期:2019-06-22 11:56
本发明专利技术公开了一种自动检测文档敏感信息的方法和应用,包括以下步骤:S1、敏感词典的准备;S2、检测敏感信息,包括以下子步骤:S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;S22、使用模糊匹配;S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST‑API调用。该自动检测文档敏感信息的方法和应用,与传统的人工分析的方法来统计文档中的敏感信息相比,该方法结合了AC自动机等自然语言处理技术,能够快速准确的分析文本文档中的敏感信息,对于被模糊处理的敏感信息,如使用繁体字、拼音、形近、同音字来代替原来的汉字,也能够准确识别。

【技术实现步骤摘要】
一种自动检测文档敏感信息的方法和应用
本专利技术涉及文本分析
,具体为一种自动检测文档敏感信息的方法和应用。
技术介绍
根据2018年第42次中国互联网发展状况统计报告显示,我国网民规模为8.02亿,面对如此之多的互联网用户,对于与内容服务相关的企业来讲,用户所发布的信息数量非常庞大。而在互联网用户提供的海量、庞杂的信息中,有很多与色情、广告、涉政、暴恐等多类敏感信息。如果通过人工的方式去检测用户发布的文档是否包含敏感信息,则非常费时费力。于此同时,用户会使用一些模糊手段,将敏感信息混淆为正常信息,例如,对于“六合彩”,使用同音字“和”代替“合”,或者使用拼音“liu”代替“六”等手段来混淆敏感信息。因此如何快速、准确的检测大量文档中的敏感信息成为了一个亟待解决的问题。目前,对于文档的敏感信息检测,AC自动机是一种有效的解决方法。AC自动机是著名的多模匹配算法之一,与Trie树和KMP模式匹配算法的关系比较大,但是它对于混淆的中文敏感信息,不能很好的工作,因此,本专利技术提出了一种改进的AC自动机方法,用于解决此问题。
技术实现思路
本专利技术的目的在于提供一种自动检测文档敏感信息的方法和应用,以解决上述
技术介绍
中提出的仅用人工的方式去检测用户发布的文档是否包含敏感信息,非常费时费力,无法快速、准确的检测大量文档中的敏感信息,而AC自动机对于混淆的中文敏感信息,不能很好的工作的问题。为实现上述目的,本专利技术提供如下技术方案:一种自动检测文档敏感信息的方法和应用,包括以下步骤:S1、敏感词典的准备,包括以下子步骤:S11、准备好敏感词典,敏感词典中的结构为词-敏感词类型-权重;S12、根据敏感词典,构建符合需求的AC自动机;S13、针对每个汉字,构建其相应的拼音、形近字、同音字和繁体等的模糊信息库;S2、检测敏感信息,包括以下子步骤:S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;S22、使用模糊匹配,首先通过bitmap过滤已经精确匹配的词的位置,然后结合已建立好的信息库进行模糊匹配,匹配出与敏感词有一定相似度的词;S23、统计每个的词的位置,所属敏感类型、敏感覆盖率以及敏感权重;S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST-API调用。优选的,所述敏感词典有三列,分别表示敏感词、敏感词类型以及权重,敏感词类有涉赌、涉毒、粗言秽语、政治反动、色情等等类型,且权重的取值范围为1到10之间。优选的,所述AC自动机是由敏感词典、Trie树和fail指针所构建,且Trie树根据敏感词典所构建,并且fail指针是根据Trie树所建立。优选的,所述敏感词的检测可以分为精确匹配和模糊匹配两个过程,且精确匹配指的是搜索文档中与敏感词完全一致的字符串,并且模糊搜索是通过使用与繁体、拼音、同音、形近等信息库相结合的策略进行处理。优选的,所述敏感信息检测使用Python3来编程实现,且基于tornado框架作为REST服务的基本框架,将敏感信息检测作为一个库集成到服务中,并提供REST-API。与现有技术相比,本专利技术的有益效果是:1、与传统的人工分析的方法来统计文档中的敏感信息相比,该方法结合了AC自动机等自然语言处理技术,能够快速准确的分析文本文档中的敏感信息,对于被模糊处理的敏感信息,如使用繁体字、拼音、形近、同音字来代替原来的汉字,也能够准确识别,同时,构建了基于REST-API的敏感信息检测服务,为敏感信息检测的工程应用实现上提供了一种思路;2、对原始的AC自动机进行了一些改进,不但可以精确检测出与敏感词库中的敏感信息,还可以准确检测被模糊处理的敏感信息,如使用形近、同音、繁体、拼音字等替换敏感信息中某个或某几个字,然后给出敏感词的在文档中的位置、所属的敏感类型以及文档的敏感指数,最后,将检测方法应用到REST服务中,提供REST-API以供使用。附图说明图1为本专利技术敏感信息的匹配流程示意图;图2为本专利技术AC自动机的构建流程示意图;图3为本专利技术基于REST-API的敏感信息检测服务架构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-3,本专利技术提供一种技术方案:一种自动检测文档敏感信息的方法和应用,包括以下步骤:S1、敏感词典的准备,包括以下子步骤:S11、准备好敏感词典,敏感词典中的结构为词-敏感词类型-权重;敏感词典有三列,分别表示敏感词、敏感词类型以及权重,敏感词有涉赌、涉毒、粗言秽语、政治反动、色情等等类型,且权重的取值范围为1到10之间;S12、根据敏感词典,构建符合需求的AC自动机;AC自动机是由敏感词典、Trie树和fail指针所构建,且Trie树根据敏感词典所构建,并且fail指针是根据Trie树所建立,Trie树使用哈希表来代替数组,有效的解决了空间浪费问题,fail指针通过BFS(广度优先搜索)来求得;S13、针对每个汉字,构建其相应的繁体、拼音、同音和形近等的模糊信息库,用户可能会使用繁体、拼音、同音和形近等手段来模糊处理敏感信息。因此,我们需要分别建立繁体、拼音、同音和形近等的模糊信息库。繁体字就很简单了,就是简体字和繁体字的区别,比如“对”和“對”。拼音信息库为汉字拼音拼写相同的所有汉字,如拼音为“yi”的所有汉字。同音字信息库为读音相同的所有汉字,也就是拼音拼写相同而且音调也相同的字,比如“意”和“义”。形近字是汉字字形很相似的字,比如“人”和“入”。模糊信息库有四种,分别是繁体信息库、拼音信息库、同音信息库和形近信息库,为了便于计算机查询信息库,将这些信息库转化为哈希表的形式;S2、检测敏感信息,包括以下子步骤:敏感词的检测可以分为精确匹配和模糊匹配两个过程,且精确匹配指的是搜索文档中与敏感词完全一致的字符串,并且模糊搜索是通过与繁体、拼音、同音、形近等信息库相结合的策略进行处理;S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;匹配过程分为两种情况:(1)当前字符匹配,表示从当前节点沿着树边有一条路径可以到达目标字符,如果当前匹配的字符是一个词语的结尾,我们可以沿着当前字符的fail指针,一直遍历到root节点,如果这些节点有结尾标记,这些节点全都是可以匹配上的节点。我们统计这些带有结尾标记的词,并且记下文档字符串的位置。此时只需沿该路径走向下一个节点继续匹配即可,文档字符串指针移向下个字符继续匹配。(2)当前字符不匹配,则去当前节点的fail指针所指向的字符继续匹配,匹配过程随着指针指向root节点结束;重复这两个过程中的任意一个,直到为文档字符串走到结尾为止;S22、使用模糊匹配,首先通过bitmap过滤已经精确匹配的词的位置,然后结合已建立好的信息库进行模糊匹配,有时用户为了避免被检查到敏感词,会用一些相似的字或者拼音来代替敏感词中的某些字。这样精确匹配就没法有效的检测出这些敏感词了。对于简本文档来自技高网...

【技术保护点】
1.一种自动检测文档敏感信息的方法和应用,包括以下步骤:S1、敏感词典的准备,包括以下子步骤:S11、准备好词典,敏感词典中的结构为词‑敏感词类型‑权重;S12、根据敏感词典,构建符合需求的AC自动机;S13、针对每个汉字,构建其相应的拼音、形近字、同音字和繁体等的模糊信息库;S2、检测敏感信息,包括以下子步骤:S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;S22、使用模糊匹配,首先通过bitmap过滤已经精确匹配的词的位置,然后结合已建立好的信息库进行模糊匹配,匹配出与敏感词有一定相似度的词;S23、统计每个的词的位置,所属敏感类型、敏感覆盖率以及敏感权重;S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST‑API调用。

【技术特征摘要】
1.一种自动检测文档敏感信息的方法和应用,包括以下步骤:S1、敏感词典的准备,包括以下子步骤:S11、准备好词典,敏感词典中的结构为词-敏感词类型-权重;S12、根据敏感词典,构建符合需求的AC自动机;S13、针对每个汉字,构建其相应的拼音、形近字、同音字和繁体等的模糊信息库;S2、检测敏感信息,包括以下子步骤:S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;S22、使用模糊匹配,首先通过bitmap过滤已经精确匹配的词的位置,然后结合已建立好的信息库进行模糊匹配,匹配出与敏感词有一定相似度的词;S23、统计每个的词的位置,所属敏感类型、敏感覆盖率以及敏感权重;S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST-API调用。2.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用,其特征在于:所述敏感词典有三...

【专利技术属性】
技术研发人员:李宁宁
申请(专利权)人:上海凡响网络科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1