基于机器学习的自适应动态网页爬虫系统的实现方法技术方案

技术编号:15540666 阅读:106 留言:0更新日期:2017-06-05 10:26
本发明专利技术公开一种基于机器学习的自适应动态网页爬虫系统的实现方法,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对动态网页路径选择模块输出的交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新交互路径列表;其中,输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表。

Implementation method of adaptive dynamic web crawler system based on machine learning

Including the implementation method, the invention discloses an adaptive dynamic web crawler system based on machine learning: dynamic web path selection module according to the input information of all Unicom interactive path set; interactive path dynamic web path adaptive training module selection module to output dynamic web path set in real-time scheduling, the formation of interaction path list; dynamic web data capture module for dynamic page crawling on interaction path list n optimal paths, and feedback the results to dynamic web path adaptive training module, update the interaction path list; the input information includes one or more of the following: entrance address of the web page, the target page address, use the interactive process the initial input data, target information data structure, and grab the page list.

【技术实现步骤摘要】
基于机器学习的自适应动态网页爬虫系统的实现方法
本专利技术涉及一种计算机技术,具体而言,涉及一种基于机器学习的自适应动态网页爬虫系统。
技术介绍
由于动态网页具有交互性强、交互数据复杂的特点,目前的动态网页爬虫程序的编写需要软件开发人员对页面代码及交互规则进行具体的分析研究。这些分析研究的工作量随着交互过程和交互数据的复杂性增加而成倍的增加。同时,各网站页面的交互规则不同,导致针对某一网站进行的分析研究工作缺少可复用性,大大增加了动态网页爬虫程序的编写工作量。
技术实现思路
本专利技术实施例中提供一种基于机器学习的自适应动态网页爬虫系统的实现方法,以解决上述至少一个问题。为解决上述技术问题,本专利技术实施例提供了一种基于机器学习的自适应动态网页爬虫系统的实现方法,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对动态网页路径选择模块输出的交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新交互路径列表;其中,输入信息包括下列中的一个或多本文档来自技高网...
基于机器学习的自适应动态网页爬虫系统的实现方法

【技术保护点】
一种基于机器学习的自适应动态网页爬虫系统的实现方法,其特征在于,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对所述动态网页路径选择模块输出的所述交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对所述交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新所述交互路径列表;其中,所述输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表。

【技术特征摘要】
1.一种基于机器学习的自适应动态网页爬虫系统的实现方法,其特征在于,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对所述动态网页路径选择模块输出的所述交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对所述交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新所述交互路径列表;其中,所述输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表。2.根据权利要求1所述的自适应动态网页爬虫系统的实现方法,其特征在于,所述联通的交互路径集合包括从入口网页地址出发、到目标网页地址截止的交互路径和网络数据交互信息。3.根据权利要求2所述的自适应动态网页爬虫系统的实现方法,其特征在于,所述根据输入信息获取所有联通的交互路径集合的步骤包括:用浏览器内核,通过模拟用户行为的方式访问入口网页,同时设置并初始化操作树;用xpath、正则表达式或自定义编程的方式分析页面结构,调用浏览器内核,模拟用户行为,将初始输入数据输入至网页相应区域;通过模拟用户行为的方式进行交互操作,进入下一可达页面;并将操作源网页地址、操作目标网页地址、操作方法、网络交互接口、网络交互数据封装为一个节点,插入到操作树的相应位置。4.根据权利要求3所述的自适应动态网页爬虫系统的实现方法,其特征在于,所述动态网页路径选择模块根据网页初始信息获取所有联通的交互路径集合的步骤还包括:若当前网页地址为所述输入信息中指定的目标网页地址,则将当前页面判定为目标网页;若当前网页地址非目标网页地址,判断下一页面的主页是否在所述输入信息的抓取网页范围列表中,或是否无下一可达页面;当下一页面...

【专利技术属性】
技术研发人员:刘序文王鹏王和邵利铎刘苍牧孙杰平刘晗李宏宇
申请(专利权)人:中国人民财产保险股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1