网页文字处理方法、系统及装置制造方法及图纸

技术编号:22946121 阅读:12 留言:0更新日期:2019-12-27 17:28
本发明专利技术提供一种网页文字处理方法、系统及装置,所述网页文字处理方法包括:获取网页加密后的网页源代码;对所述网页源代码进行处理,以获取所述网页的字体文件;对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。利用本发明专利技术可以轻松获取加密网页的正确页面内容。

【技术实现步骤摘要】
网页文字处理方法、系统及装置
本专利技术信息处理
,特别涉及网页文字处理方法、系统及装置。
技术介绍
随着大数据,人工智能领域的发展,数据变得尤为重要,爬虫是一种获取网络公开内容最常用的方法,然而在一些情况下网站为保证信息安全,时常会采用加密处理,通过爬虫爬取的网页内容是加密后的网页源代码,网页源代码中的加密部分会出现乱码的情况,从而导致爬取的网页内容为错误的内容,不能使用,拿不到数据会对公司未来发展造成很大影响。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种网页文字处理方法、系统及装置,用于解决现有技术中利用爬虫爬取加密的网页内容时不能获取正确页面内容的技术问题。为实现上述目的及其他相关目的,本专利技术提供一种网页文字处理方法,所述网页文字处理方法包括:获取网页加密后的网页源代码;对所述网页源代码进行处理,以获取所述网页的字体文件;对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。在一实施例中,在所述获取网页加密后的网页源代码的步骤中,利用爬虫爬取网页加密后的网页源代码。在一实施例中,所述网页文字处理方法还包括,将所述解密词典存储于存储单元中,当需要对所述网页密文进行解密时,从所述存储单元中调用所述解密词典。在一实施例中,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,判定所述字体文件是否已经存在,如果存在,则直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。在一实施例中,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件;如果两者不同,则更新所述解密词典。在一实施例中,更新所述解密词典时,同时记录更新时间。在一实施例中,在对所述字体文件进行处理之前还包括步骤,判定所述字体文件是否已经存在,如果存在,则直接调用和所述字体文件对应的所述解密词典。在一实施例中,所述网页源代码包括所述网页的待解密密文及所述字体文件的网址。在一实施例中,所述字体文件包括字体二进制源文件。为实现上述目的及其他相关目的,本专利技术还提供一种网页文字处理系统,所述网页文字处理系统包括:源码获取单元,用于获取网页加密后的网页源代码;字体文件获取单元,对所述网页源代码进行处理,以获取所述网页的字体文件;字符密码获取单元,对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;字符明码获取单元,用于加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;解密词典建立单元,用于将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;解密单元,用于利用获取的所述解密词典对所述网页的网页密文进行解密,以获取正确的网页明文。在一实施例中,所述网页文字处理系统还包括存储单元,用于存储所述揭秘词典,当需要对所述网页的网页密文进行解密时,从所述存储单元中调用所述解密词典。在一实施例中,所述字体文件获取单元还用于网判定所述字体文件是否已经存在,如果存在,则所述解密单元直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。在一实施例中,所述字体文件获取单元还用于对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件。为实现上述目的及其他相关目的,本专利技术还提供一种服务装置,所述服务装置包括:存储器,用于存储计算机程序;处理器,连接所述存储器,用于运行所述计算机程序以执行上述任意一项所述的网页文字处理方法。为实现上述目的及其他相关目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;所述计算机程序运行时执行上述任意一项所述的网页文字处理方法。与普通爬虫相比,本专利技术的网页文字处理方法能够轻松获取加密网页的正确页面内容;本专利技术的解密词典可以直接加载到存储设备,出现加密内容时直接调用词典解密,方便快捷;与普通爬虫相比,本专利技术的网页文字处理方法适应性更广,不仅能爬取不加密页面,也可以爬取加密页面;本专利技术的网页文字处理方法具有可扩展性,如果有其它页面加密方式,可以直接将解密词典添加入解密库,后续调用即可;本专利技术的网页文字处理方法实现方式简单,可以以比较简单的方式获取需要数据。附图说明图1显示为本专利技术的网页文字处理方法的流程示意图。图2显示为本专利技术的一种字体文件解析后的映射关系图。图3显示为本专利技术的网页文字处理系统的框图。图4显示为本专利技术的服务装置框图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。请参阅图1-4。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。如图1所示,本专利技术的实施例介绍一种网页文字处理方法,可用于对加密网页的加密文本进行解密,从而解析获取网页的正确内容。所述网页文字处理方法包括以下步骤,步骤S10、获取网页加密后的网页源代码;步骤S20、对所述网页源代码进行处理,以获取所述网页的字体文件;步骤S30、对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;步骤S40、加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;步骤S50、将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;步骤S60、利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。在步骤S10中,为了获取网页加密后的网页源代码,可以利用python,java等语言撰写网络爬虫代码,然后利用编写好的爬虫代码根据需要自动爬取网页的内容,获取加密后的网页源代码,所述网页源代码中包含待解密文字(待解密密文)及字体文件的统一资源定位符(UniformResourceLocator,URL),字体文件的URL也即字体文件的网址;需要说明的是,虽然网页的显示界面的内容是可读的,但是通过爬虫代码爬取的网本文档来自技高网...

【技术保护点】
1.一种网页文字处理方法,其特征在于,包括:/n获取网页加密后的网页源代码;/n对所述网页源代码进行处理,以获取所述网页的字体文件;/n对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;/n加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;/n将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;/n利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。/n

【技术特征摘要】
1.一种网页文字处理方法,其特征在于,包括:
获取网页加密后的网页源代码;
对所述网页源代码进行处理,以获取所述网页的字体文件;
对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;
加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;
将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;
利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。


2.根据权利要求1所述网页文字处理方法,其特征在于,所述网页文字处理方法还包括,将所述解密词典存储于存储单元中,当需要对所述网页密文进行解密时,从所述存储单元中调用所述解密词典。


3.根据权利要求2所述网页文字处理方法,其特征在于,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,判定所述字体文件是否已经存在,如果存在,则直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。


4.根据权利要求1-3任意一项所述网页文字处理方法,其特征在于,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件。


5.一种网页文字处理系统,其特征在于,包括:
源码获取单元,用于获取网页加密后的网页源代码;
字体文件获取单元,对所述网页源代码进行处理,以获取所述网页的字体文件;
字符密码获取...

【专利技术属性】
技术研发人员:张耀华刘振宇胡寅骏孙沛基张嘉锐
申请(专利权)人:上海科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1