基于TAN树形朴素贝叶斯算法网页可点击识别方法及装置制造方法及图纸

技术编号:18658191 阅读:38 留言:0更新日期:2018-08-11 14:30
本发明专利技术公开了基于TAN树形朴素贝叶斯算法网页可点击识别方法及系统,该方法包括:包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。本发明专利技术所涉及的数据爬取以及点击等具体行为不需要人工参与定义,减少人工干预。加入人工智能辅助,爬取过程人工介入量少,训练好的模型可适应大多数目标源,重用性高。

Web page clickable recognition method and device based on TAN tree based naive Bayes algorithm

The invention discloses a clickable recognition method and a system for web pages based on TAN tree naive Bayesian algorithm. The method includes: Calculate the conditional probability of each node feature in clickable and non-clickable categories of the label tree; According to the conditional probability of each node clickable, calculate the conditional mutual information value of each pair of parent-child nodes in clickable and non-clickable categories and act as the weight of the edge; 540, according to the weight Identify the nodes with higher clicks probability and click on the node. Specific behaviors such as data crawling and clicking involved in the invention do not require manual participation in defining and reduce manual intervention. With the help of artificial intelligence, the crawling process has less manual intervention, and the trained model can be adapted to most target sources with high reusability.

【技术实现步骤摘要】
基于TAN树形朴素贝叶斯算法网页可点击识别方法及装置
本专利技术涉及一种基于TAN树形朴素贝叶斯算法网页可点击识别方法及装置。
技术介绍
目前数据爬取的方式主要是基于直接模拟http请求方式和程序操作浏览器方式等。直接模拟http请求的方式是伪造http协议报文内容,例如伪造报文headers与请求参数等,使得目标源网站认为是一个正常的用户在发送请求,并返回相应的数据。此方法的缺陷在于,对于每一个目标源在进行数据爬取时,都要伪造与之对应的header信息,且当头部信息被加密,例如获取数据前需要进行验证码验证,或者用户登录等,header信息则很难被伪造。另外,当同一目标源的内容需要进行切换时,则需要修改请求中的链接或者参数。此方法需要对每一个网站的某一个请求进行具体的分析,工作重复则耗时,无法解决比较复杂的问题。程序操作浏览器的方式,对于上一种方式的优势在于,其直接就是一个真实的浏览器访问,无需伪造请求。当遇到加密信息时,只需要对应的输入正确信息即可,例如破解验证,模拟用户登录等。但程序操作浏览器过程中,操作的所有行为都得人为的具体定义,例如点击哪个按钮获取进行网页跳转,点击哪个按钮进行内容翻页等。人工参与度大,智能度低。
技术实现思路
本专利技术的主要目的是本专利技术提出一种基于TAN树形朴素贝叶斯算法的网页可点击识别方法及装置,网页数据爬取的具体行为不需要人工参与定义,且自动跳转或翻页,获取数据。为实现上述目的,本专利技术提出的一种基于TAN树形朴素贝叶斯算法网页可点击识别方法,包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。优选地,所述步骤S20具体包括:将爬取到的数据划分为可点击与不可点击两类,集合C={y1,y2},其中,y1为可点击,y2为不可点击;列举可点击类别常见的特征属性,并将属于同类别的特征属性归结为集合xi,其中,将常见标签归结为集合x1,将常见属性归结为x2;根据训练数据,计算在可点击分类与不可点击分类下,各个xi集合下各个特征属性的条件概率估计,记为P(xi|yj);根据贝叶斯公式:可以计算得到各个xi的可点击和不可点击的后验概率;将计算得到各个xi的可点击的后验概率与预设阈值进行比较时,若可点击的后验概率大于预设阀值,则表明该节点可以点击。优选地,步骤S30具体包括:假设zi、zj为标签节点树上相邻的节点,且zi、zj里面的元素由属性集合x1、x2中的元素组成,依据条件互信息值的计算公式,可得到:其中:根据其极大似然估计,由频率近似概率可知:根据权重,判断出拥有较高可点击概率的节点,并得到节点的CSSSELECTOR并操作webdiver点击该元素。为解决上述问题,本专利技术还提供一种基于TAN树形朴素贝叶斯算法网页可点击识别系统,包括:数据爬取模块,用于操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;节点概率计算模块;用于根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;父子节点互信息值计算模块,用于根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;判断及点击操作模块,用于根据权重,判断出拥有较高可点击概率的节点,并点击该节点。优选地,节点概率计算模块具体包括:数据处理单元,用于将爬取到的数据划分为可点击与不可点击两类,集合C={y1,y2},其中,y1为可点击,y2为不可点击;并用于列举可点击类别常见的特征属性,并将属于同类别的特征属性归结为集合xi,其中,将常见标签归结为集合x1,将常见属性归结为x2;节点概率计算单元,用于根据训练数据,计算处在可点击分类与不可点击分类下,各个xi集合下各个特征属性的条件概率估计,记为P(xi|yj);并用于根据贝叶斯公式:可以计算得到各个xi的可点击和不可点击的后验概率;可点击判断单元,用于将计算得到各个xi的可点击的后验概率与预设阈值进行比较时,若可点击的后验概率大于预设阀值,则表明该节点可以点击。优选地,父子节点互信息值计算模块具体用于以下操作:假设zi、zj为标签节点树上相邻的节点,且zi、zj里面的元素由属性集合x1、x2中的元素组成,依据条件互信息值的计算公式,可得到:其中:根据其极大似然估计,由频率近似概率可知:优选地,判断及点击操作模块具体用于根据权重,判断出拥有较高可点击概率的节点,并得到节点的CSSSELECTOR并操作webdiver点击该元素。本专利技术提供的基于TAN树形朴素贝叶斯算法网页可点击识别方法,该方法基于TAN树形朴素贝叶斯算法完成可点击按钮的检测。为了能够准确分析本身不具有明显特征的标签,以自动并准确识别网页中可点击的结点,本专利技术在TAN算法的基础上增加了一层互信息值,利用父子之间的互信息,以更好地对结点的可点击进行识别。本专利技术所涉及的数据爬取以及点击等具体行为不需要人工参与定义,减少人工干预,基于大量的训练数据,可具备自动识别可点击按钮的能力,且可区分是否为广告点击。加入人工智能辅助,爬取过程人工介入量少,训练好的模型可适应大多数目标源,重用性高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本专利技术基于TAN树形朴素贝叶斯算法网页可点击识别方法的流程图;图2为本专利技术基于TAN树形朴素贝叶斯算法网页可点击识别系统的第一实施例的模块图;图3为本专利技术基于TAN树形朴素贝叶斯算法网页可点击识别系统的第二实施例的模块图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参考图1,图1为本专利技术基于TAN树形朴素贝叶斯算法网页可点击识别方法的流程图。本专利技术提供的基于TAN树形朴素贝叶斯算法网页可点击识别方法,该方法包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树。步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件下的概率。步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重。步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。关于步骤S10,由于HTML网页本质即为一个树形结构,本文档来自技高网...

【技术保护点】
1.一种基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。

【技术特征摘要】
1.一种基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。2.如权利要求1所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,所述步骤S20具体包括:将爬取到的数据划分为可点击与不可点击两类,集合C={y1,y2},其中,y1为可点击,y2为不可点击;列举可点击类别常见的特征属性,并将属于同类别的特征属性归结为集合xi,其中,将常见标签归结为集合x1,将常见属性归结为x2;根据训练数据,计算在可点击分类与不可点击分类下,各个xi集合下各个特征属性的条件概率估计,记为P(xi|yj);根据贝叶斯公式:可以计算得到各个xi的可点击和不可点击的后验概率;将计算得到各个xi的可点击的后验概率与预设阈值进行比较,若可点击的后验概率大于预设阀值,则表明该节点可以点击。3.如权利要求1所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,步骤S30具体包括:假设zi、zj为标签节点树上相邻的节点,且zi、zj里面的元素由属性集合x1、x2中的元素组成,依据条件互信息值的计算公式,可得到:其中:根据其极大似然估计,由频率近似概率可知:4.如权利要求1~3任一项所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,步骤S40具体包括:根据权重,判断出拥有较高可点击概率的节点,并得到节点的CSSSELECTOR并操作webdiver点击该元素。5.一种基于TAN树形朴素贝叶斯算法网页可点击识别系统,其特征在于,包括:数...

【专利技术属性】
技术研发人员:周柳阳张南迪许皓天
申请(专利权)人:智言科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1