一种自动检测文档敏感信息的方法和应用技术

技术编号：21432273 阅读：65 留言：0更新日期：2019-06-22 11:56

本发明专利技术公开了一种自动检测文档敏感信息的方法和应用，包括以下步骤：S1、敏感词典的准备；S2、检测敏感信息，包括以下子步骤：S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；S22、使用模糊匹配；S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST‑API调用。该自动检测文档敏感信息的方法和应用，与传统的人工分析的方法来统计文档中的敏感信息相比，该方法结合了AC自动机等自然语言处理技术，能够快速准确的分析文本文档中的敏感信息，对于被模糊处理的敏感信息，如使用繁体字、拼音、形近、同音字来代替原来的汉字，也能够准确识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动检测文档敏感信息的方法和应用
本专利技术涉及文本分析
，具体为一种自动检测文档敏感信息的方法和应用。
技术介绍
根据2018年第42次中国互联网发展状况统计报告显示，我国网民规模为8.02亿，面对如此之多的互联网用户，对于与内容服务相关的企业来讲，用户所发布的信息数量非常庞大。而在互联网用户提供的海量、庞杂的信息中，有很多与色情、广告、涉政、暴恐等多类敏感信息。如果通过人工的方式去检测用户发布的文档是否包含敏感信息，则非常费时费力。于此同时，用户会使用一些模糊手段，将敏感信息混淆为正常信息，例如，对于“六合彩”，使用同音字“和”代替“合”，或者使用拼音“liu”代替“六”等手段来混淆敏感信息。因此如何快速、准确的检测大量文档中的敏感信息成为了一个亟待解决的问题。目前，对于文档的敏感信息检测，AC自动机是一种有效的解决方法。AC自动机是著名的多模匹配算法之一，与Trie树和KMP模式匹配算法的关系比较大，但是它对于混淆的中文敏感信息，不能很好的工作，因此，本专利技术提出了一种改进的AC自动机方法，用于解决此问题。
技术实现思路
本专利技术的目的在于提供一种自动检测文档敏感信息的方法和应用，以解决上述
技术介绍
中提出的仅用人工的方式去检测用户发布的文档是否包含敏感信息，非常费时费力，无法快速、准确的检测大量文档中的敏感信息，而AC自动机对于混淆的中文敏感信息，不能很好的工作的问题。为实现上述目的，本专利技术提供如下技术方案：一种自动检测文档敏感信息的方法和应用，包括以下步骤：S1、敏感词典的准备，包括以下子步骤：S11、准备好敏感词典，敏感词典中的结构...

【技术保护点】
1.一种自动检测文档敏感信息的方法和应用，包括以下步骤：S1、敏感词典的准备，包括以下子步骤：S11、准备好词典，敏感词典中的结构为词‑敏感词类型‑权重；S12、根据敏感词典，构建符合需求的AC自动机；S13、针对每个汉字，构建其相应的拼音、形近字、同音字和繁体等的模糊信息库；S2、检测敏感信息，包括以下子步骤：S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；S22、使用模糊匹配，首先通过bitmap过滤已经精确匹配的词的位置，然后结合已建立好的信息库进行模糊匹配，匹配出与敏感词有一定相似度的词；S23、统计每个的词的位置，所属敏感类型、敏感覆盖率以及敏感权重；S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST‑API调用。

【技术特征摘要】
1.一种自动检测文档敏感信息的方法和应用，包括以下步骤：S1、敏感词典的准备，包括以下子步骤：S11、准备好词典，敏感词典中的结构为词-敏感词类型-权重；S12、根据敏感词典，构建符合需求的AC自动机；S13、针对每个汉字，构建其相应的拼音、形近字、同音字和繁体等的模糊信息库；S2、检测敏感信息，包括以下子步骤：S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；S22、使用模糊匹配，首先通过bitmap过滤已经精确匹配的词的位置，然后结合已建立好的信息库进行模糊匹配，匹配出与敏感词有一定相似度的词；S23、统计每个的词的位置，所属敏感类型、敏感覆盖率以及敏感权重；S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST-API调用。2.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用，其特征在于：所述敏感词典有三...

【专利技术属性】
技术研发人员：李宁宁，
申请(专利权)人：上海凡响网络科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人