The invention discloses a clickable recognition method and a system for web pages based on TAN tree naive Bayesian algorithm. The method includes: Calculate the conditional probability of each node feature in clickable and non-clickable categories of the label tree; According to the conditional probability of each node clickable, calculate the conditional mutual information value of each pair of parent-child nodes in clickable and non-clickable categories and act as the weight of the edge; 540, according to the weight Identify the nodes with higher clicks probability and click on the node. Specific behaviors such as data crawling and clicking involved in the invention do not require manual participation in defining and reduce manual intervention. With the help of artificial intelligence, the crawling process has less manual intervention, and the trained model can be adapted to most target sources with high reusability.
【技术实现步骤摘要】
基于TAN树形朴素贝叶斯算法网页可点击识别方法及装置
本专利技术涉及一种基于TAN树形朴素贝叶斯算法网页可点击识别方法及装置。
技术介绍
目前数据爬取的方式主要是基于直接模拟http请求方式和程序操作浏览器方式等。直接模拟http请求的方式是伪造http协议报文内容,例如伪造报文headers与请求参数等,使得目标源网站认为是一个正常的用户在发送请求,并返回相应的数据。此方法的缺陷在于,对于每一个目标源在进行数据爬取时,都要伪造与之对应的header信息,且当头部信息被加密,例如获取数据前需要进行验证码验证,或者用户登录等,header信息则很难被伪造。另外,当同一目标源的内容需要进行切换时,则需要修改请求中的链接或者参数。此方法需要对每一个网站的某一个请求进行具体的分析,工作重复则耗时,无法解决比较复杂的问题。程序操作浏览器的方式,对于上一种方式的优势在于,其直接就是一个真实的浏览器访问,无需伪造请求。当遇到加密信息时,只需要对应的输入正确信息即可,例如破解验证,模拟用户登录等。但程序操作浏览器过程中,操作的所有行为都得人为的具体定义,例如点击哪个按钮获取进行网页跳转,点击哪个按钮进行内容翻页等。人工参与度大,智能度低。
技术实现思路
本专利技术的主要目的是本专利技术提出一种基于TAN树形朴素贝叶斯算法的网页可点击识别方法及装置,网页数据爬取的具体行为不需要人工参与定义,且自动跳转或翻页,获取数据。为实现上述目的,本专利技术提出的一种基于TAN树形朴素贝叶斯算法网页可点击识别方法,包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数 ...
【技术保护点】
1.一种基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。
【技术特征摘要】
1.一种基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。2.如权利要求1所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,所述步骤S20具体包括:将爬取到的数据划分为可点击与不可点击两类,集合C={y1,y2},其中,y1为可点击,y2为不可点击;列举可点击类别常见的特征属性,并将属于同类别的特征属性归结为集合xi,其中,将常见标签归结为集合x1,将常见属性归结为x2;根据训练数据,计算在可点击分类与不可点击分类下,各个xi集合下各个特征属性的条件概率估计,记为P(xi|yj);根据贝叶斯公式:可以计算得到各个xi的可点击和不可点击的后验概率;将计算得到各个xi的可点击的后验概率与预设阈值进行比较,若可点击的后验概率大于预设阀值,则表明该节点可以点击。3.如权利要求1所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,步骤S30具体包括:假设zi、zj为标签节点树上相邻的节点,且zi、zj里面的元素由属性集合x1、x2中的元素组成,依据条件互信息值的计算公式,可得到:其中:根据其极大似然估计,由频率近似概率可知:4.如权利要求1~3任一项所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,步骤S40具体包括:根据权重,判断出拥有较高可点击概率的节点,并得到节点的CSSSELECTOR并操作webdiver点击该元素。5.一种基于TAN树形朴素贝叶斯算法网页可点击识别系统,其特征在于,包括:数...
【专利技术属性】
技术研发人员:周柳阳,张南迪,许皓天,
申请(专利权)人:智言科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。