数据检测方法、系统、电子设备和存储介质技术方案

技术编号:20917712 阅读:35 留言:0更新日期:2019-04-20 09:56
本申请提供一种数据检测方法、系统、电子设备和存储介质,涉及数据处理技术领域,用于检测指定网站的数据是否泄漏。其中方法包括:接收指定网站的数据检测请求;提取所述数据检测请求携带的所述指定网站的域名,和所述指定网站的至少一组关键词;遍历待检测的数据库,获取与所述指定网站的域名关联的数据;从获取的数据中筛出与各组关键词对应的数据,分别比对各组数据与对应组关键词是否匹配;当比对结果为匹配时,发出数据泄漏警报。本申请通过上述方案克服了指定网站数据外泄的隐患,可以实时监控指定网站数据是否外泄,确保数据安全。

Data detection methods, systems, electronic devices and storage media

The application provides a data detection method, a system, an electronic device and a storage medium, which relates to the technical field of data processing, and is used to detect whether the data of a designated website is leaked or not. The method includes: receiving the data detection request of the designated website; extracting the domain name of the designated website carried by the data detection request, and at least a group of keywords of the designated website; traversing the database to be detected to obtain the data associated with the domain name of the designated website; sifting out the data corresponding to each group of keywords from the acquired data and comparing the number of groups separately. According to the matching with the corresponding group keywords, when the matching results are matched, a data leak alarm is issued. This application overcomes the hidden danger of data leakage from designated websites through the above-mentioned scheme, and can monitor whether data leakage from designated websites in real time to ensure data security.

【技术实现步骤摘要】
数据检测方法、系统、电子设备和存储介质
本申请涉及数据处理
,具体地说,涉及一种数据检测方法、系统、电子设备和存储介质。
技术介绍
随着信息技术的不断发展,信息安全越来越受到大众关注。在信息技术不断发展的同时,信息安全事件呈现增长态势,信息安全已成为企业信息化建设的重点。最近1-2年数据安全泄露事件越来越多,特别是GitHub源代码泄露成为数据安全一个重要源头。因开发人员的安全意识不足,开源代码仓库直接发布公司内部账号,数据库、vpn账号,核心业务密钥等敏感信息,攻击者利用这些信息,能以最小的攻击成本,获取到最多的企业数据和公司内部文件。为加强企业数据安全管理,有必要对GitHub公开源代码进行实时监控,以降低企业数据安全风险。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本申请提供一种数据检测方法、系统、电子设备和存储介质,克服现有技术中公司内部数据外泄的风险。根据本申请的一个方面,提供一种数据检测方法,包括:接收指定网站的数据检测请求;提取所述数据检测请求携带的所述指定网站的域名,和所述指定网站的至少一组关键词;遍历待检测的数据库,获取与所述指定网站的域名关联的数据;从获取的数据中筛出与各组关键词对应的数据,分别比对各组数据与对应组关键词是否匹配;当比对结果为匹配时,发出数据泄漏警报。优选地,上述的数据检测方法中,每组关键词包含一个或多个关键字,当一组数据命中其对应组关键词的任意关键字,则得出该组数据与其对应组关键词匹配的比对结果。优选地,上述的数据检测方法中,比对一组数据与其对应组关键词是否匹配的步骤包括:解析该组数据,将该组数据的格式转化成文本格式;以及将该组数据与其对应组关键词进行模糊匹配,获得比对结果。优选地,上述的数据检测方法中,所述关键字包括名称关键字和内容关键字,每组关键词包含至少一个名称关键字和/或至少一个内容关键字;与所述名称关键字对应的数据为对应该名称关键字的URL路径名,与所述内容关键字对应的数据为对应该内容关键字的URL内容。优选地,上述的数据检测方法中,所述名称关键字包括:所述指定网站的登录文件名称、数据库文件名称、认证文件名称、核心业务名称,所述内容关键字包括:所述指定网站的内网IP、登录关键字、用户名和密码关键字,数据库关键字、备份文件关键字、配置文件关键字。优选地,上述的数据检测方法中,从获取的数据中筛出与各组关键词对应的数据后,还包括:形成多个第一定时任务,每个第一定时任务用于执行一组数据与其对应组关键词的比对;将各第一定时任务放入消息队列,通过多任务异步调度分别执行各第一定时任务。优选地,上述的数据检测方法中,当接收到多个所述数据检测请求时,所述方法还包括:形成多个第二定时任务,每个第二定时任务用于响应一个数据检测请求;将各第二定时任务放入消息队列,通过多任务异步调度分别执行各第二定时任务。优选地,上述的数据检测方法中,发出数据泄漏警报的同时,还包括:推送比对结果为匹配的该组数据和其对应组关键词;以及推送将该组数据定位至所述待检测的数据库的链接。优选地,上述的数据检测方法中,所述指定网站的域名是所述指定网站的二级域名。优选地,上述的数据检测方法中,所述待检测的数据库为GitHub代码库,获取的所述数据为所述指定网站的源代码。根据本申请的另一个方面,提供一种数据检测系统,包括:接收模块,用于接收指定网站的数据检测请求;提取模块,用于提取所述数据检测请求携带的所述指定网站的域名,和所述指定网站的至少一组关键词;爬虫模块,用于遍历待检测的数据库,获取与所述指定网站的域名关联的数据;比对模块,用于从获取的数据中筛出与各组关键词对应的数据,分别比对各组数据与对应组关键词是否匹配;以及警报模块,用于当比对结果为匹配时,发出数据泄漏警报。根据本申请的另一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的数据检测方法的步骤。根据本申请的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据检测方法的步骤。本申请与现有技术相比的有益效果在于:本申请通过指定网站的域名和关键词组合,全面检测数据是否泄露;通过名称关键词和内容关键词,实现多角度检测,杜绝漏检导致数据泄露;通过定时任务实现多任务异步执行,为实时监控数据安全提供保障;当检测发现数据泄露时,发出警报并推送泄漏数据供复核,同时提供泄漏数据的定位链接供及时删除。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本申请实施例中一种数据检测方法的步骤示意图;图2示出实施例中一种企业源代码监控的系统流程图;图3示出本申请实施例中一种数据检测系统的模块示意图;图4示出本申请实施例中一种电子设备的示意图;图5示出本申请实施例中一种计算机可读存储介质的示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本申请将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。本申请的数据检测方法涉及到WEB服务应用,爬虫技术,安全规则,定时任务,安全告警等,实现对网站数据进行实时安全监控,及时发现违规发布公网的数据,能够有效保障网站数据的安全。其中,WEB服务应用主要实现安全规则管理,定时任务管理,安全告警配置管理;爬虫技术调用GitHub查询HTTP(超文本传输协议)请求接口获取相关数据;安全规则定义多关键字条件组合条件,模糊匹配来判断数据泄露风险;命中安全规则时触发安全告警,并及时推送给相关人员采取应对操作。本申请的主要方面阐述对网站源代码的安全监控,所检测的公网主要指GitHub代码库,GitHub是一个面向开源及私有软件项目的托管平台,程序开发人员通常会将一些开源代码分享到GitHub平台进行技术交流。但在分享企业代码的时候,代码中很可能携带企业内部敏感信息,导致企业机密泄露。因此,需要对GitHub上与企业相关的代码进行监控,防止敏感信息泄露。下面结合图1阐述本申请实施例中数据检测方法的主要步骤。参照图1所示,在一些实施例中,数据检测方法主要包括:S10、接收指定网站的数据检测请求。指定网站是指需要检测数据是否泄漏的网站,可以对需要的任意一家网站进行数据是否泄漏的检测。S20、提取数据检测请求携带的指定网站的域名,和指定网站的至少一组关键词。网站对外提供应用服务会使用三级域名(www.xxx.com),为避免三级域名检测过程中有遗漏,在优选的实施例中直接使用指定网站的二级域名(xxx.com),保障监控源本文档来自技高网...

【技术保护点】
1.一种数据检测方法,其特征在于,包括:接收指定网站的数据检测请求;提取所述数据检测请求携带的所述指定网站的域名,和所述指定网站的至少一组关键词;遍历待检测的数据库,获取与所述指定网站的域名关联的数据;从获取的数据中筛出与各组关键词对应的数据,分别比对各组数据与对应组关键词是否匹配;当比对结果为匹配时,发出数据泄漏警报。

【技术特征摘要】
1.一种数据检测方法,其特征在于,包括:接收指定网站的数据检测请求;提取所述数据检测请求携带的所述指定网站的域名,和所述指定网站的至少一组关键词;遍历待检测的数据库,获取与所述指定网站的域名关联的数据;从获取的数据中筛出与各组关键词对应的数据,分别比对各组数据与对应组关键词是否匹配;当比对结果为匹配时,发出数据泄漏警报。2.如权利要求1所述的数据检测方法,其特征在于,每组关键词包含一个或多个关键字,当一组数据命中其对应组关键词的任意关键字,则得出该组数据与其对应组关键词匹配的比对结果。3.如权利要求2所述的数据检测方法,其特征在于,比对一组数据与其对应组关键词是否匹配的步骤包括:解析该组数据,将该组数据的格式转化成文本格式;以及将该组数据与其对应组关键词进行模糊匹配,获得比对结果。4.如权利要求2所述的数据检测方法,其特征在于,所述关键字包括名称关键字和内容关键字,每组关键词包含至少一个名称关键字和/或至少一个内容关键字;与所述名称关键字对应的数据为对应该名称关键字的URL路径名,与所述内容关键字对应的数据为对应该内容关键字的URL内容。5.如权利要求4所述的数据检测方法,其特征在于,所述名称关键字包括:所述指定网站的登录文件名称、数据库文件名称、认证文件名称、核心业务名称,所述内容关键字包括:所述指定网站的内网IP、登录关键字、用户名和密码关键字,数据库关键字、备份文件关键字、配置文件关键字。6.如权利要求1所述的数据检测方法,其特征在于,从获取的数据中筛出与各组关键词对应的数据后,还包括:形成多个第一定时任务,每个第一定时任务用于执行一组数据与其对应组关键词的比对;将各第一定时...

【专利技术属性】
技术研发人员:谢敏
申请(专利权)人:江苏满运软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1