敏感信息检测方法、装置、设备与计算机可读存储介质制造方法及图纸

技术编号:26650705 阅读:23 留言:0更新日期:2020-12-09 00:50
本发明专利技术公开了一种敏感信息检测方法,包括:向目标地址发送第一请求和第二请求,以得到第一请求对应的第一内容和第二请求对应的第二内容;基于第一内容和第二内容,确定目标地址对应的目标内容;确定目标内容对应的原始字符,并提取原始字符中的目标标签;基于目标标签,生成目标页面,并检测目标页面中是否存在目标敏感信息,以获得检测结果。本发明专利技术还公开了一种敏感信息检测装置、设备和计算机可读存储介质。本发明专利技术通过同一地址的两次请求,剔除地址中动态因素的干扰,从而得到固定的内容,再通过提取标签,生成包含完整数据的页面,使得页面的内容固定且完整,再在该页面中进行敏感信息的检测,提高了敏感信息检测的准确率。

【技术实现步骤摘要】
敏感信息检测方法、装置、设备与计算机可读存储介质
本专利技术涉及金融科技(Fintech)
,尤其涉及敏感信息检测方法、装置、设备与计算机可读存储介质。
技术介绍
近年来,随着金融科技(Fintech),尤其是互联网金融的不断发展,信息检测技术被引入银行等金融机构的日常服务中。在银行等金融机构的日常服务过程中,为避免敏感信息,如银行等金融机构的报价信息等被他人上传至外部网站,导致银行等金融机构的敏感信息被外人获知,银行等金融机构往往需要对敏感信息进行泄露检测,以便及时知晓敏感信息被泄露,从而采取补救措施,如删除等。目前的敏感信息检测方式主要通过对页面进行HTML关键字检测,从而识别敏感信息是否被发布在该页面上,具体的,获取该页面的HTML源码,再对HTML源码进行关键字识别,从而判断是否存在敏感信息,如HTML源码中有关键字“关于印发xxx四项制度的通知”,则表示可能泄露了某银行机构的公文。此种敏感信息检测方式仅针对HTML源码关键字进行识别,并不能排除一些动态因素的影响,如广告等,且HTML源码并不代表真正的数据,如含有资源请求的标签,以及代码执行后才能获取的数据等并不能直接获得,可见,目前的敏感信息检测方式由于动态因素的干扰或者无法获取到真正的数据,导致检测准确率较低。
技术实现思路
本专利技术的主要目的在于提出一种敏感信息检测方法、装置、设备与计算机可读存储介质,旨在提高敏感信息检测的准确率。为实现上述目的,本专利技术提供一种敏感信息检测方法,所述敏感信息检测方法包括如下步骤:向目标地址发送第一请求和第二请求,以得到第一请求对应的第一内容和第二请求对应的第二内容;基于第一内容和第二内容,确定所述目标地址对应的目标内容;确定所述目标内容对应的原始字符,并提取所述原始字符中的目标标签;基于所述目标标签,生成目标页面,并检测所述目标页面中是否存在目标敏感信息,以获得检测结果。优选地,所述目标标签包括内容标签和样式标签,所述基于所述目标标签,生成目标页面的步骤包括:确定所述内容标签的第一层级关系,并基于第一层级关系和所述内容标签,构建文档模型树;确定所述样式标签的第二层级关系,并基于第二层级关系和所述样式标签,构建样式模型树;基于所述文档模型树和所述样式模型树,生成渲染树;遍历所述渲染树的节点,并基于所述节点和所述节点的节点关系,生成目标页面。优选地,所述基于第一层级关系和所述内容标签,构建文档模型树的步骤包括:依次确定所述内容标签的标签类型;若当前内容标签为脚本标签,则执行所述脚本标签对应的执行代码,并在所述执行代码执行完毕之后,确定下一内容标签的标签类型;若当前内容标签为资源标签,则获取所述资源标签对应的资源,并将所述资源生成文档节点;基于第一层级关系和所述文档节点,构建文档模型树。优选地,所述基于所述文档模型树和所述样式模型树,生成渲染树的步骤包括:遍历所述文档模型树中的第一节点,并依次确定第一节点在所述样式模型树中对应的第二节点;基于第一节点和第二节点,生成第三节点,并基于第三节点,生成渲染树。优选地,所述检测所述目标页面中是否存在目标敏感信息,以获得检测结果的步骤包括:确定所述目标页面对应的第一字符串,以及所述目标敏感信息对应的第二字符串,并基于第一字符串的首位页面字符和第二字符串的首位敏感字符,将第一字符串与第二字符串对齐;依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配;若当前页面字符与当前敏感字符不匹配,则将第二字符串的末位敏感字符所对应的页面字符的下一页面字符确定为目标字符,并确定第二字符串中是否存在所述目标字符;若不存在,则基于所述目标字符的下一页面字符和第二字符串的首位敏感字符,将第一字符串和第二字符串对齐,并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤;若存在,则基于所述目标字符,将第一字符串与第二字符串对齐,并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤;若匹配,则记录第二字符串在第一字符串的匹配位置,并基于所述匹配位置输出检测结果。优选地,在生成目标页面之后,所述敏感信息检测方法还包括:确定所述目标页面的标识信息,并基于所述标识信息,确定预设数据库中是否存在与所述标识信息一致的目标标识信息;若不存在,则执行检测所述目标页面中是否存在目标敏感信息,以获得检测结果的步骤,并在获得所述检测结果后,将所述检测结果和所述标识信息关联保存在预设数据库中;若存在,则获取所述目标标识信息对应的检测结果。优选地,所述基于第一内容和第二内容,确定所述目标地址对应的目标内容的步骤包括:确定第一内容对应的第一序列,以及第二内容对应的第二序列,并基于第一序列和第二序列,生成目标矩阵;基于所述目标矩阵,确定第一序列与第二序列的最长公共子序列,并基于所述最长公共子序列,确定所述目标地址对应的目标内容。优选地,所述向所述目标地址发送第一请求和第二请求,以得到所述目标地址返回的第一请求对应的第一内容和第二请求对应的第二内容的步骤之前,所述敏感信息检测方法还包括:向所述目标地址发送第三请求,以得到第三请求对应的状态码;若所述状态码为目标状态码,则执行向目标地址发送第一请求和第二请求的步骤。此外,为实现上述目的,本专利技术还提供一种敏感信息检测装置,所述敏感信息检测装置包括:发送模块,用于向目标地址发送第一请求和第二请求,以得到第一请求对应的第一内容和第二请求对应的第二内容;确定模块,用于基于第一内容和第二内容,确定所述目标地址对应的目标内容;提取模块,用于确定所述目标内容对应的原始字符,并提取所述原始字符中的目标标签;生成模块,用于基于所述目标标签,生成目标页面;检测模块,用于检测所述目标页面中是否存在目标敏感信息,以获得检测结果。优选地,所述目标标签包括内容标签和样式标签,所述生成模块还用于:确定所述内容标签的第一层级关系,并基于第一层级关系和所述内容标签,构建文档模型树;确定所述样式标签的第二层级关系,并基于第二层级关系和所述样式标签,构建样式模型树;基于所述文档模型树和所述样式模型树,生成渲染树;遍历所述渲染树的节点,并基于所述节点和所述节点的节点关系,生成目标页面。优选地,所述生成模块还用于:依次确定所述内容标签的标签类型;若当前内容标签为脚本标签,则执行所述脚本标签对应的执行代码,并在所述执行代码执行完毕之后,确定下一内容标签的标签类型;若当前内容标签为资源标签,则获取所述资源标签对应的资源,并将所述资源生成文档节点;基于第一层级关系和所述文档节点,构建文档模型树。优选地,所述生成模块还用于:遍历所述文档模型本文档来自技高网...

【技术保护点】
1.一种敏感信息检测方法,其特征在于,所述敏感信息检测方法包括如下步骤:/n向目标地址发送第一请求和第二请求,以得到第一请求对应的第一内容和第二请求对应的第二内容;/n基于第一内容和第二内容,确定所述目标地址对应的目标内容;/n确定所述目标内容对应的原始字符,并提取所述原始字符中的目标标签;/n基于所述目标标签,生成目标页面,并检测所述目标页面中是否存在目标敏感信息,以获得检测结果。/n

【技术特征摘要】
1.一种敏感信息检测方法,其特征在于,所述敏感信息检测方法包括如下步骤:
向目标地址发送第一请求和第二请求,以得到第一请求对应的第一内容和第二请求对应的第二内容;
基于第一内容和第二内容,确定所述目标地址对应的目标内容;
确定所述目标内容对应的原始字符,并提取所述原始字符中的目标标签;
基于所述目标标签,生成目标页面,并检测所述目标页面中是否存在目标敏感信息,以获得检测结果。


2.如权利要求1所述的敏感信息检测方法,其特征在于,所述目标标签包括内容标签和样式标签,所述基于所述目标标签,生成目标页面的步骤包括:
确定所述内容标签的第一层级关系,并基于第一层级关系和所述内容标签,构建文档模型树;
确定所述样式标签的第二层级关系,并基于第二层级关系和所述样式标签,构建样式模型树;
基于所述文档模型树和所述样式模型树,生成渲染树;
遍历所述渲染树的节点,并基于所述节点和所述节点的节点关系,生成目标页面。


3.如权利要求2所述的敏感信息检测方法,其特征在于,所述基于第一层级关系和所述内容标签,构建文档模型树的步骤包括:
依次确定所述内容标签的标签类型;
若当前内容标签为脚本标签,则执行所述脚本标签对应的执行代码,并在所述执行代码执行完毕之后,确定下一内容标签的标签类型;
若当前内容标签为资源标签,则获取所述资源标签对应的资源,并将所述资源生成文档节点;
基于第一层级关系和所述文档节点,构建文档模型树。


4.如权利要求2所述的敏感信息检测方法,其特征在于,所述基于所述文档模型树和所述样式模型树,生成渲染树的步骤包括:
遍历所述文档模型树中的第一节点,并依次确定第一节点在所述样式模型树中对应的第二节点;
基于第一节点和第二节点,生成第三节点,并基于第三节点,生成渲染树。


5.如权利要求1所述的敏感信息检测方法,其特征在于,所述检测所述目标页面中是否存在目标敏感信息,以获得检测结果的步骤包括:
确定所述目标页面对应的第一字符串,以及所述目标敏感信息对应的第二字符串,并基于第一字符串的首位页面字符和第二字符串的首位敏感字符,将第一字符串与第二字符串对齐;
依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配;
若当前页面字符与当前敏感字符不匹配,则将第二字符串的末位敏感字符所对应的页面字符的下一页面字符确定为目标字符,并确定第二字符串中是否存在所述目标字符;
若不存在,则基于所述目标字符的下一页面字符和第二字符串的首位敏感字符,将第一字符串和第二字符串对齐,并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤;
若存在,...

【专利技术属性】
技术研发人员:刘宇滨
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1