敏感信息检测方法、装置、设备与计算机可读存储介质制造方法及图纸

技术编号：26650705 阅读：23 留言：0更新日期：2020-12-09 00:50

本发明专利技术公开了一种敏感信息检测方法，包括：向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；基于第一内容和第二内容，确定目标地址对应的目标内容；确定目标内容对应的原始字符，并提取原始字符中的目标标签；基于目标标签，生成目标页面，并检测目标页面中是否存在目标敏感信息，以获得检测结果。本发明专利技术还公开了一种敏感信息检测装置、设备和计算机可读存储介质。本发明专利技术通过同一地址的两次请求，剔除地址中动态因素的干扰，从而得到固定的内容，再通过提取标签，生成包含完整数据的页面，使得页面的内容固定且完整，再在该页面中进行敏感信息的检测，提高了敏感信息检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
敏感信息检测方法、装置、设备与计算机可读存储介质
本专利技术涉及金融科技(Fintech)
，尤其涉及敏感信息检测方法、装置、设备与计算机可读存储介质。
技术介绍
近年来，随着金融科技(Fintech)，尤其是互联网金融的不断发展，信息检测技术被引入银行等金融机构的日常服务中。在银行等金融机构的日常服务过程中，为避免敏感信息，如银行等金融机构的报价信息等被他人上传至外部网站，导致银行等金融机构的敏感信息被外人获知，银行等金融机构往往需要对敏感信息进行泄露检测，以便及时知晓敏感信息被泄露，从而采取补救措施，如删除等。目前的敏感信息检测方式主要通过对页面进行HTML关键字检测，从而识别敏感信息是否被发布在该页面上，具体的，获取该页面的HTML源码，再对HTML源码进行关键字识别，从而判断是否存在敏感信息，如HTML源码中有关键字“关于印发xxx四项制度的通知”，则表示可能泄露了某银行机构的公文。此种敏感信息检测方式仅针对HTML源码关键字进行识别，并不能排除一些动态因素的影响，如广告等，且HTML源码并不代表真正的数据，如含有资源请求的标签，以及代码执行后才能获取的数据等并不能直接获得，可见，目前的敏感信息检测方式由于动态因素的干扰或者无法获取到真正的数据，导致检测准确率较低。
技术实现思路
本专利技术的主要目的在于提出一种敏感信息检测方法、装置、设备与计算机可读存储介质，旨在提高敏感信息检测的准确率。为实现上述目的，本专利技术提供一种敏感信息检测方法，所述敏感信息检测方...

【技术保护点】
1.一种敏感信息检测方法，其特征在于，所述敏感信息检测方法包括如下步骤：/n向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；/n基于第一内容和第二内容，确定所述目标地址对应的目标内容；/n确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签；/n基于所述目标标签，生成目标页面，并检测所述目标页面中是否存在目标敏感信息，以获得检测结果。/n

【技术特征摘要】
1.一种敏感信息检测方法，其特征在于，所述敏感信息检测方法包括如下步骤：
向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；
基于第一内容和第二内容，确定所述目标地址对应的目标内容；
确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签；
基于所述目标标签，生成目标页面，并检测所述目标页面中是否存在目标敏感信息，以获得检测结果。

2.如权利要求1所述的敏感信息检测方法，其特征在于，所述目标标签包括内容标签和样式标签，所述基于所述目标标签，生成目标页面的步骤包括：
确定所述内容标签的第一层级关系，并基于第一层级关系和所述内容标签，构建文档模型树；
确定所述样式标签的第二层级关系，并基于第二层级关系和所述样式标签，构建样式模型树；
基于所述文档模型树和所述样式模型树，生成渲染树；
遍历所述渲染树的节点，并基于所述节点和所述节点的节点关系，生成目标页面。

3.如权利要求2所述的敏感信息检测方法，其特征在于，所述基于第一层级关系和所述内容标签，构建文档模型树的步骤包括：
依次确定所述内容标签的标签类型；
若当前内容标签为脚本标签，则执行所述脚本标签对应的执行代码，并在所述执行代码执行完毕之后，确定下一内容标签的标签类型；
若当前内容标签为资源标签，则获取所述资源标签对应的资源，并将所述资源生成文档节点；
基于第一层级关系和所述文档节点，构建文档模型树。

4.如权利要求2所述的敏感信息检测方法，其特征在于，所述基于所述文档模型树和所述样式模型树，生成渲染树的步骤包括：
遍历所述文档模型树中的第一节点，并依次确定第一节点在所述样式模型树中对应的第二节点；
基于第一节点和第二节点，生成第三节点，并基于第三节点，生成渲染树。

5.如权利要求1所述的敏感信息检测方法，其特征在于，所述检测所述目标页面中是否存在目标敏感信息，以获得检测结果的步骤包括：
确定所述目标页面对应的第一字符串，以及所述目标敏感信息对应的第二字符串，并基于第一字符串的首位页面字符和第二字符串的首位敏感字符，将第一字符串与第二字符串对齐；
依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配；
若当前页面字符与当前敏感字符不匹配，则将第二字符串的末位敏感字符所对应的页面字符的下一页面字符确定为目标字符，并确定第二字符串中是否存在所述目标字符；
若不存在，则基于所述目标字符的下一页面字符和第二字符串的首位敏感字符，将第一字符串和第二字符串对齐，并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤；
若存在，...

【专利技术属性】
技术研发人员：刘宇滨，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人