信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24331354 阅读:15 留言:0更新日期:2020-05-29 19:43
本发明专利技术实施例涉及网页技术领域,公开了一种信息处理方法,包括:获取待检测网址以及获取所述待检测网址的链接网址;爬取所述待检测网址和所述链接网址,得到爬虫结果;识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。本发明专利技术还提出一种信息处理装置、电子设备以及一种计算机可读存储介质。本发明专利技术提供的信息处理方法、信息处理装置、电子设备以及计算机可读存储介质可以快速检测到网页中存在的特征信息,提高网页特征信息检测结果的可靠性。

Information processing methods, devices, electronic equipment and storage media

【技术实现步骤摘要】
信息处理方法、装置、电子设备及存储介质
本专利技术实施例涉及网页
,特别涉及一种信息处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着互联网技术的发展,网页的数量呈现爆发式增长,网页内的信息也越来越丰富。目前很多网页都添加了合作伙伴等第三方的站点链接,专利技术人发现,这些站点链接上的信息存在不可控性,当用户访问网页时若跳转至存在非法信息的站点,将极大的降低用户体验,甚至可能带来用户信息的泄露。但目前,通常通过人工审核的方式对网页及网页添加的第三方的站点链接是否存在不恰当的信息进行审核,由于通常第三方的站点链接会跟随热点更改,因此,通常需要在短时间内对大量信息进行审核,这种人工审核的方式效率不高,并且由于效率不高也会带来审核结果误差率高的问题,从而导致对网页内容检测结果的可靠性不高。
技术实现思路
本专利技术实施方式的目的在于提供一种信息处理方法、装置、电子设备及计算机可读存储介质,可以快速检测到网页中存在的特征信息,提高网页特征信息检测结果的可靠性。为解决上述技术问题,本专利技术的实施方式提供了一种信息处理方法,所述方法包括:获取待检测网址以及获取所述待检测网址的链接网址;爬取所述待检测网址和所述链接网址,得到爬虫结果;识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。本专利技术的实施方式还提供了一种信息处理装置,所述装置包括:获取模块,用于获取待检测网址以及获取所述待检测网址的链接网址;爬虫模块,用于爬取所述待检测网址和所述链接网址,得到爬虫结果;识别模块,用于识别所述爬虫结果中是否存在特征信息;保存模块,用于若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。本专利技术的实施方式还提供了一种电子设备,所述电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的信息处理方法。本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述信息处理。本专利技术实施方式相对于现有技术而言,其获取待检测网址以及获取所述待检测网址的链接网址;爬取所述待检测网址和所述链接网址,得到爬虫结果;识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。通过爬取待检测网址,从而能够快速全面的获取到待检测网址和链接网址的信息并识别是否存在特征信息,提高了检测网页中是否存在特征信息的效率和准确率,降低了错误率,提高了网页特征信息检测结果的可靠性,并且,本专利技术将准确的识别结果保存到不可被篡改的区块链中,进一步提高了网页特征信息检测结果的可靠性。进一步地,本专利技术通过递归爬取待检测网址的方式,可以尽可能多的获取到链接网址,从而能够更加全面的获取到点击待检测网址之后的可能浏览到的页面信息,可以更全面的识别到特征信息是否存在,有利于提高检测的准确率。优选地,所述获取所述待检测网址的链接网址包括:递归爬取所述待检测网址,得到所述待检测链接网址的链接网址。优选地,所述爬虫结果包含多条爬取记录,每条爬取记录包含爬取内容,所述识别所述爬虫结果中是否存在特征信息包括:通过爬取内容判断所述多条爬取记录中是否存在与预设特征信息匹配策略相匹配的目标爬取记录;若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,确定所述目标爬取记录中存在特征信息。优选地,所述将所述爬虫结果中的特征信息保存至区块链中包括:将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;将所述特征信息识别记录保存在区块链的区块体中。优选地,所述方法还包括:获取所述区块体对应的交易号,通过所述交易号回溯查找所述特征信息识别记录。优选地,所述将所述爬虫结果中的特征信息保存至区块链中包括:将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;将所述所述特征信息识别记录保存在区块链的区块体中。优选地,所述特征信息为敏感信息。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1为本专利技术第一实施例提供的信息处理方法的流程示意图;图2为本专利技术第二实施例提供的信息处理装置的结构示意图;图3为本专利技术第三实施例提供的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。本专利技术的第一实施方式涉及一种信息处理方法。下面对本实施方式的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。请参见图1,图1为第一实施例提供的信息处理方法的流程示意图。本实施例中信息处理方法包括:S1,获取待检测网址以及获取所述待检测网址的链接网址。本实施例中,所述待检测网址是要进行检测的网站的地址,待检测网址的链接地址是指点击待检测网址中的内容之后跳转进入的网址。一种可选实施例中,所述待检测网址和链接网址可以从与第三方的交互邮件中获取。另一种可选实施例中,所述待检测网址和链接网址保存在文本文件中,则可以直接从文本文件中获取待检测网址以及链接网址。另一可选实施例中,所述待检测网址和链接网址保存在表格文件中,如保存在excel中,则可以直接从表格文件中获取待检测网址以及链接网址。又一种可选实施例中,所述待检测网址和链接网址可以先后获取,具体的,获取所述待检测网址的链接网址包括:递归爬取所述待检测网址,得到所述待检测链接网址的链接网址。具体的,递归爬取所述待检测网址,得到所述待检测链接网址的链接网址包括:扫描所述待检测网址的网页内容,获取所述网页内容中包含的网页链接标识符,获取所述网页链接标识符标识的网址为第一链接网址,以及获取第一链接网址中链接的第二链接网址,获取第二链接网址中链接的第三链接网址,以此类推。在具体实施时,可以获取存在的所有链接网址,也可以用户对待检测网站的历史点击深度确定递归的次数,其中,历史点击深度可以根据预设埋点的方法获取。本实施例中,所述链接标识符包括但不限于www,https,http。本实施例中,当将待检测网址保存在文本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,所述方法包括:/n获取待检测网址以及获取所述待检测网址的链接网址;/n爬取所述待检测网址和所述链接网址,得到爬虫结果;/n识别所述爬虫结果中是否存在特征信息;/n若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:
获取待检测网址以及获取所述待检测网址的链接网址;
爬取所述待检测网址和所述链接网址,得到爬虫结果;
识别所述爬虫结果中是否存在特征信息;
若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。


2.如权利要求1所述的信息处理方法,其特征在于,所述获取所述待检测网址的链接网址包括:
递归爬取所述待检测网址,得到所述待检测链接网址的链接网址。


3.如权利要求1或2所述的信息处理方法,其特征在于,所述爬虫结果包含多条爬取记录,每条爬取记录包含爬取内容,所述识别所述爬虫结果中是否存在特征信息包括:
通过爬取内容判断所述多条爬取记录中是否存在与预设特征信息匹配策略相匹配的目标爬取记录;
若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,确定所述目标爬取记录中存在特征信息。


4.如权利要求3所述的信息处理方法,其特征在于,所述将所述爬虫结果中的特征信息保存至区块链中包括:
将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;
将所述特征信息识别记录保存在区块链的区块体中。


5.如权利要求4所述的信息处理方法,其特征在于,所述方法还包括:
获取所述区块体对应的交易号,通过所述交易号回溯查找所述特征信息识别记录。


6.如权利要求4所述的信...

【专利技术属性】
技术研发人员:侯姗姗秦俊锋杨梦茹张云蕾周一枫
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1