【技术实现步骤摘要】
网页文字处理方法、系统及装置
本专利技术信息处理
,特别涉及网页文字处理方法、系统及装置。
技术介绍
随着大数据,人工智能领域的发展,数据变得尤为重要,爬虫是一种获取网络公开内容最常用的方法,然而在一些情况下网站为保证信息安全,时常会采用加密处理,通过爬虫爬取的网页内容是加密后的网页源代码,网页源代码中的加密部分会出现乱码的情况,从而导致爬取的网页内容为错误的内容,不能使用,拿不到数据会对公司未来发展造成很大影响。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种网页文字处理方法、系统及装置,用于解决现有技术中利用爬虫爬取加密的网页内容时不能获取正确页面内容的技术问题。为实现上述目的及其他相关目的,本专利技术提供一种网页文字处理方法,所述网页文字处理方法包括:获取网页加密后的网页源代码;对所述网页源代码进行处理,以获取所述网页的字体文件;对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;加载所述字体文件, ...
【技术保护点】
1.一种网页文字处理方法,其特征在于,包括:/n获取网页加密后的网页源代码;/n对所述网页源代码进行处理,以获取所述网页的字体文件;/n对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;/n加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;/n将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;/n利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。/n
【技术特征摘要】
1.一种网页文字处理方法,其特征在于,包括:
获取网页加密后的网页源代码;
对所述网页源代码进行处理,以获取所述网页的字体文件;
对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;
加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;
将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;
利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。
2.根据权利要求1所述网页文字处理方法,其特征在于,所述网页文字处理方法还包括,将所述解密词典存储于存储单元中,当需要对所述网页密文进行解密时,从所述存储单元中调用所述解密词典。
3.根据权利要求2所述网页文字处理方法,其特征在于,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,判定所述字体文件是否已经存在,如果存在,则直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。
4.根据权利要求1-3任意一项所述网页文字处理方法,其特征在于,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件。
5.一种网页文字处理系统,其特征在于,包括:
源码获取单元,用于获取网页加密后的网页源代码;
字体文件获取单元,对所述网页源代码进行处理,以获取所述网页的字体文件;
字符密码获取...
【专利技术属性】
技术研发人员:张耀华,刘振宇,胡寅骏,孙沛基,张嘉锐,
申请(专利权)人:上海科技发展有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。