【技术实现步骤摘要】
一种基于浏览器内核的网页获取系统
[0001]本专利技术涉及信息处理
,特别是一种基于浏览器内核的网页获取系统。
技术介绍
[0002]近年来,随着科技水平的不断发展,网络也逐渐遍布于世界的各个角落,随之网络上的信息也出现爆发式的增长。网络上信息的主要传播方式是网页,网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。
[0003]目前,现有的网页信息抓取技术过于繁琐,所需成本与时间消耗较高,效率较低,如:需通过人工控制浏览器去识别网页元素,网页标题,站点信息以及网页变化;提交报修时,站点信息需要人工抓取,或取不全,达不到运维能力等等。
技术实现思路
[0004]本专利技术提供一种基于浏览器内核的网页获取系统,包括:S1.获取网页站点,并注入代码的介入周期;S2.针对网页内容进行录制或滚动截屏;S3.获取网页样点,识别网页是否变更;S4.识别并获取网页中的相关 ...
【技术保护点】
【技术特征摘要】
1.一种基于浏览器内核的网页获取系统,其特征在于,包括:S1.获取网页站点,并注入代码的介入周期;S2.针对网页内容进行录制或滚动截屏;S3.获取网页样点,识别网页是否变更;S4.识别并获取网页中的相关数据与错误数据,并自动上报、还原;S5.将获取的网页中的相关数据与错误数据生成工单,并交于处理人处理。2.根据权利要求1所述的一种基于浏览器内核的网页获取系统,其特征在于,所述S2在浏览视角到达标记位置时,网页将自动加载下页内容;所述S2自动识别滚动的DOM标签区域,并记录第一个区域的元素个数,并控制浏览器向下滚动;所述S2浏览器依照Y=300px/次的频率进行滚动加载,当区域内的元素fn=n*5时,浏览器将停...
【专利技术属性】
技术研发人员:韩金洋,盖志国,林博,李海滨,蔡军利,王敏,侯立国,朱秀娟,李晓鹤,李卫东,李纪明,宋淑杰,崔宇,
申请(专利权)人:启明信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。