The invention discloses the method of collecting web data and its system, storage medium and electronic equipment. The web data acquisition method comprises the following steps: the establishment of database, the database includes multiple accounts, each account password; configuration data acquisition web address, regular expressions and JavaScript executable script; according to at least one of the web page address configuration, send a web page address request, and access to the requested page address the page file; will match all the strings all matching objects in a regular expression and acquisition of the page file; judging whether the regular expression string hit the page file in the matching object, if using the configuration of the JavaScript executable script to hit the string, string corresponding to hit the account number and password to account; the corresponding mobile phone number or email warning information.
【技术实现步骤摘要】
网页数据的采集方法及其系统、存储介质、电子设备
本专利技术涉及一种网页数据的采集方法及其系统、存储介质、电子设备。
技术介绍
随着互联网技术的高速发展,大数据时代的来临,越来越多的公司或个人对网络的依赖性越来越强。为了保证网络安全,因此,对各种网页的数据监控就显得尤为重要。目前,各个网站存在有很多账号、会员号发生被盗的现象。而这些账号、会员号被盗后,被放在各种论坛、分享和共享网站上,发生盗用和欺诈的概率很高,因此,获取这些账号、会员号等数据对网站的风险控制有很大帮助。从某一个网站上采集特定的数据,需要编写针对该网站页面的程序代码。如果需要采集的网站很多,则每个网站页面上都需要特定的代码,就需要很大的代码编写量,而且网页内容一旦发生变动,则需要重新修改程序代码,再发布,维护较为不便。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种网页数据的采集方法及其系统、存储介质、电子设备,可以通过灵活地配置数据采集的网页地址、正则表达式以及脚本语言对不同的网页页面内的数据进行采集,大大提高了数据采集的可维护性。根据本专利技术的一个方面提供一种网页数据的采集方法,所述 ...
【技术保护点】
一种网页数据的采集方法,其特征在于,所述网页数据的采集方法包括如下步骤:S10:建立数据库,所述数据库包括多个账号以及每个所述账号对应的密码;S20:配置数据采集的网页地址、正则表达式以及JavaScript可执行脚本,其中,配置的所述正则表达式的匹配对象至少包括由所述数据库中与所述账号对应的手机号或者邮箱中至少一项构成的字符串以及由所述数据库中与所述账号对应的密码构成的字符串;S30:根据配置的至少一所述网页地址,发送网页地址请求,并获取该网页地址请求的页面文件;S40:将所述正则表达式中的所有匹配对象与获取的所述页面文件中的所有字符串进行匹配;S50:判断所述页面文件的 ...
【技术特征摘要】
1.一种网页数据的采集方法,其特征在于,所述网页数据的采集方法包括如下步骤:S10:建立数据库,所述数据库包括多个账号以及每个所述账号对应的密码;S20:配置数据采集的网页地址、正则表达式以及JavaScript可执行脚本,其中,配置的所述正则表达式的匹配对象至少包括由所述数据库中与所述账号对应的手机号或者邮箱中至少一项构成的字符串以及由所述数据库中与所述账号对应的密码构成的字符串;S30:根据配置的至少一所述网页地址,发送网页地址请求,并获取该网页地址请求的页面文件;S40:将所述正则表达式中的所有匹配对象与获取的所述页面文件中的所有字符串进行匹配;S50:判断所述页面文件的字符串中是否命中所述正则表达式的匹配对象,若是,则执行步骤S60;S60:利用配置的JavaScript可执行脚本对所述命中的字符串进行处理,获取所述命中的字符串对应的账号和密码;S70:向账号对应的手机号或者邮箱发出告警信息,其中,所述告警信息至少包括所述页面文件对应的网页地址以及所述命中的字符串对应的账号和密码。2.如权利要求1所述的网页数据的采集方法,其特征在于,在所述步骤S30中还包括如下步骤:获取所述配置的网页地址内的所有子页面的页面文件。3.如权利要求1所述的网页数据的采集方法,其特征在于,所述步骤S40还包括如下步骤:对所述正则表达式中的至少一个所述匹配对象进行分组,形成多个分组数据;所述多个分组数据并行、同时进行正则匹配。4.如权利要求1所述的网页数据的采集方法,其特征在于,在所述步骤S40中,通过对所述页面文件进行遍历的方式将所述正则表达式中的所有匹配对象与获取的所述页面文件中的所有字符串进行匹配。5.如权利要求1所述的网页数据的采集方法,其特征在于,所述步骤S20中配置了多个数据采集的网页地址;在所述步骤S50中,若判断在所述页面文件的字符串中未命中所述正则表达式的匹配对象,则返回所述步...
【专利技术属性】
技术研发人员:夏阳,刘雪艳,蒋一新,
申请(专利权)人:携程旅游网络技术上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。