当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法技术

技术编号:20842454 阅读:38 留言:0更新日期:2019-04-13 08:44
本发明专利技术涉及一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,所述方法中网络爬虫沿着URL链接构成的网络拓扑图爬行,通过历史爬行过程的累计奖赏信息和URL特征预测URL链接的主题价值,并依据链接主题价值的大小选择下一个目标网页。本发明专利技术的创新点在与构建了可用于增强学习的链接特征向量并将深度学习和增强学习结合用于聚焦爬行过程中的链接价值预测问题。

【技术实现步骤摘要】
一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法
本专利技术涉及一种网络页面爬行链接预测方法。所述方法中网络爬虫沿着URL链接构成的网络拓扑图爬行,通过历史爬行过程的累计奖赏信息和URL特征预测URL链接的主题价值,并依据链接主题价值的大小选择下一个目标网页。
技术介绍
随着互联网的推广和普及,网络上出现了越来越多的资源,快速定位资源所在主机的位置并获取资源成为了搜索引擎诞生的重要原因之一。从1993年至今,搜索引擎从最初的网页分类目录到关注用户个性需求的搜索,全网搜索引擎如:Yahoo!、Google、Bing、Baidu等已经完全融入人们的日常生活。全网搜索引擎搭建在大规模计算机集群之上,定期收集整个互联网中所有资源的信息并建立索引以供用户查询。全网搜索引擎在一定程度上满足了用户快速索引网络资源的需求,但它也存在消耗大量网络资源、构建成本高昂、搜索结果主题宽泛等问题。为了提高搜索结果的主题相关度,聚焦搜索引擎应运而生。聚焦搜索消耗网络资源少、构建成本低、搜索结果范围与主题密切相关。聚焦爬虫是聚焦搜索引擎的关键模块,与通用爬虫不同之处在于,聚焦爬虫只下载与主题相关的网页以便于确定主题的精确搜索。为了更好的节约网络带宽等资源,正确且高效的定位Web网络中的主题相关网页成为聚焦爬虫面临的重要问题。经过研究者长时间的研究和实验,定位主题相关网页主要依靠主题概念的构建、网页内容主题相关性分析、链接主题相关性分析。链接主题相关性分析是影响聚焦爬虫爬行效果的重要问题之一,其目标是在不下载链接对应目标网页的情况下预测目标网页主题相关度。由于聚焦爬虫的目标是尽可能多的只下载与目标主题相关的网页,如果能利用Web网页拓扑结构特征在链接对应目标网页下载前猜测链接内容主题相关性就可以避免下载主题无关网页。链接主题相关性分析过程中存在主题定位现象和主题孤岛问题。主题定位现象是指相连网页有很大的概率有高的文本相似度,Davison通过实验证明在Web中存在主题定位现象。随后Mencer扩展了他的研究并证实了链接内容猜想的存在性,即链接内容猜测:一个页面与链接到它的页面相似,链接集群猜想如果它们位于几个链接之内,则两个页面更有可能彼此相关。Menzcer表示相关概率保持在距相关页面三个链接的距离内,但随后迅速衰减。主题孤岛问题是指同一个主题上的页面可能不会直接链接,并且可能需要遍历一些脱离主题的页面才能访问相关页面,例如包含了大量主题相关页面链接的列表页和导航页。现有的链接主题相关度分析方法大都基于主题定位现象进行页面相关性预测并着重研究和解决主题孤岛问题。利用主题定位现象进行链接内容猜测,Best-first方法使用主题关键词集合和父页面的文本内容计算父页面主题相关度并用父页面主题相关度评估所有子页面的相关度。为了解决主题孤岛问题,FishSearch方法在Best-first方法的基础上为子页面设置了一个爬行深度用于控制和主题相关页面的最大距离。改进后的FishSearch方法使得聚焦爬虫具备一定程度的智能,能够过滤一些主题无关的页面。然而FishSearch方法在评估同一页面的所有子页面时没有充分考虑不同页面的主题差异,为此SharkSearch方法在计算URL的潜在主题分数时不但继承了双亲的主题相关度而且充分利用了锚文本和锚文本的上下文。由于同一页面不同URL的主题相关度得到进一步区分,此算法比FishSearch算法的精度更高。除了利用主题定位现象评估子页面的相关度,JunghooCho等人还提出了从反向链接、前向链接和PageRank值等多种方面衡量页面的重要度。由于PageRank不能很好的应用与聚焦爬虫,Ling等人尝试改进PageRank算法,并加入聚焦爬虫子页面相关度评分中。为了充分利用爬行过程中产生的上下文信息,M.Diligent等人提出一种基于局部页面的上下文图模型,该方法通过从种子站点反向爬行构建以种子站点为顶点的多层上下文树,并使用分类器分类训练上下文图的每一层,在爬行过程中利用分类器判断页面距离种子站点的层次及所在图层。傅向华、冯博琴等人将主题爬虫的爬行过程看作序列动作的执行过程,利用增强学习的思想,将Web网页的链路结构作为增强学习的路径,并使用半监督贝叶斯分类器训练主题识别模型。基于强化学习的链接主题方法是一种增量自学习方法,与其他链接主题分析方法不同的是,该方法使用链接潜在价值即通过链接能找到主题页面能力作为标准判断链接主题相关度。通过学习链接潜在价值,可以更好的解决主题孤岛问题,因为包含更多到主题相关页面链接的列表页或导航页对应的潜在价值应该比较高。为了估计链接的潜在价值,本专利技术引入增强学习方法。增强学习是一种自学习方法,智能体感知环境奖励和变化,通过不断尝试来学习能达到其目标的最优策略。应用该方法,可以在链接对应目标网页没有下载之前判断该链接的潜在价值即其能够找到主题页面的能力,进而引导聚焦爬虫定位主题相关资源,提高聚焦爬虫的收获率和召回率。由于互联网中存在着数量庞大的网页,每个网页中又包含了数量不等的超链接。用增强学习方法建模聚焦爬虫的链接价值预测问题,如果将每个网页视为状态,每个网页内包含的链接视为动作,并且使用传统的基于表的Q-Learning学习方法需要一个巨大的表空间来存储每个状态下每个动作相应的Q值,由于状态和动作空间都很大维护这样一种大表是不现实的。为此,本专利技术引入神经网络用于计算网页中某一链接对应的Q值。与Q-Learning方法相比,能够减少内存消耗、提高计算能力、使得价值预测模型更具有普适性。
技术实现思路
为了解决在不下载链接对应目标网页的情况下预测目标网页主题相关度问题,本专利技术提出了一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,本专利技术所采用的技术方案是:一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,包括:步骤1,用户根据需要配置主题相关的种子站点URL集合、配置主题相关关键词及其对应权重;在聚焦爬虫启动时,系统自动载入主题相关URL和主题关键词;步骤2,构建两个具有相同结构的神经网络,并初始化各层神经元的权重和偏置;构建大小为MEMORY_SIZE的记忆库,用于存放历史信息;指定训练集的大小为BATCH_SIZE;步骤3,给每个种子站点URL设置一个默认链接价值,并将种子站点URL放入待爬行队列;步骤4,在待爬行队列中按URL链接的主题价值大小逆序排列,链接主题价值包含了对链接目标网页主题相关度的预测和从该链接出发能找到主题相关页面的潜力的预测,选择主题价值最大的URL链接作为爬行目标;步骤5,下载器下载爬行目标对应的目标网页,从网页中抽取网页内容相关信息并计算网页主题相关度;步骤6,从目标网页中抽取子链接URL,将子链接的文字信息和结构信息特征化,得到子链接特征向量;子链接的特征项包括以下八项:URL锚文本主题相关度、URL周围文字主题相关度、URL所在页面主题相关度、URL所在页面子链接锚文本主题相关度均值、父URL的链接价值、距离为1的父页面主题相关度均值、距离为2的父页面主题相关度均值、距离为3的父页面主题相关度均值;步骤7,用增强学习方法和两个结构相同参数不同的神经网络计算URL的链接价值实际值和估计值,并计算误差本文档来自技高网
...

【技术保护点】
1.一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,包括:步骤1,用户根据需要配置主题相关的种子站点URL集合、配置主题相关关键词及其对应权重;在聚焦爬虫启动时,系统自动载入主题相关URL和主题关键词;步骤2,构建两个具有相同结构的神经网络,并初始化各层神经元的权重和偏置;构建大小为MEMORY_SIZE的记忆库,用于存放历史信息;指定训练集的大小为BATCH_SIZE;步骤3,给每个种子站点URL设置一个默认链接价值,并将种子站点URL放入待爬行队列;步骤4,在待爬行队列中按URL链接的主题价值大小逆序排列,链接主题价值包含了对链接目标网页主题相关度的预测和从该链接出发能找到主题相关页面的潜力的预测,选择主题价值最大的URL链接作为爬行目标;步骤5,下载器下载爬行目标对应的目标网页,从网页中抽取网页内容相关信息并计算网页主题相关度;步骤6,从目标网页中抽取子链接URL,将子链接的文字信息和结构信息特征化,得到子链接特征向量;子链接的特征项包括以下八项:URL锚文本主题相关度、URL周围文字主题相关度、URL所在页面主题相关度、URL所在页面子链接锚文本主题相关度均值、父URL的链接价值、距离为1的父页面主题相关度均值、距离为2的父页面主题相关度均值、距离为3的父页面主题相关度均值;步骤7,用增强学习方法和两个结构相同参数不同的神经网络计算URL的链接价值实际值和估计值,并计算误差,用梯度下降法优化神经网络参数并更新两个神经网络的参数;步骤8,将子链接及其相应价值估计值放入待爬行的优先队列;步骤9,重复步骤4至步骤8直至满足停止条件;当满足以下任意条件即可停止:条件一、超过爬行时间阈值;条件二、爬行深度超过深度阈值;条件三、无法获取新的URL地址。...

【技术特征摘要】
1.一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,包括:步骤1,用户根据需要配置主题相关的种子站点URL集合、配置主题相关关键词及其对应权重;在聚焦爬虫启动时,系统自动载入主题相关URL和主题关键词;步骤2,构建两个具有相同结构的神经网络,并初始化各层神经元的权重和偏置;构建大小为MEMORY_SIZE的记忆库,用于存放历史信息;指定训练集的大小为BATCH_SIZE;步骤3,给每个种子站点URL设置一个默认链接价值,并将种子站点URL放入待爬行队列;步骤4,在待爬行队列中按URL链接的主题价值大小逆序排列,链接主题价值包含了对链接目标网页主题相关度的预测和从该链接出发能找到主题相关页面的潜力的预测,选择主题价值最大的URL链接作为爬行目标;步骤5,下载器下载爬行目标对应的目标网页,从网页中抽取网页内容相关信息并计算网页主题相关度;步骤6,从目标网页中抽取子链接URL,将子链接的文字信息和结构信息特征化,得到子链接特征向量;子链接的特征项包括以下八项:URL锚文本主题相关度、URL周围文字主题相关度、URL所在页面主题相关度、URL所在页面子链接锚文本主题相关度均值、父URL的链接价值、距离为1的父页面主题相关度均值、距离为2的父页面主题相关度均值、距离为3的父页面主题相关度均值;步骤7,用增强学习方法和两个结构相同参数不同的神经网络计算URL的链接价值实际值和估计值,并计算误差,用梯度下降法优化神经网络参数并更新两个神经网络的参数;步骤8,将子链接及其相应价值估计值放入待爬行的优先队列;步骤9,重复步骤4至步骤8直至满足停止条件;当满足以下任意条件即可停止:条件一、超过爬行时间阈值;条件二、爬行深度超过深度阈值;条件三、无法获取新的URL地址。2.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤2具体操作方法是:构建的两个三层神经网络中,神经网络的第一层为输入层,神经元个数与特征向量的维数一致;神经网络的第二层为隐藏层具有至少16个神经元;神经网络的第三层为输出层,只有一个神经元,使用relu作为激活函数。3.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤5具体包括以下子步骤:步骤5.1、抽取网页不同位置的文字信息:能够概括和表达网页内容主题的文字信息包括:网页URL链接锚文本、网页标题、网页描述信息、网页关键词信息、网页正文内容;网页标题可以从<title>标签中抽取,网页描述信息可以从<metaname=”description”>标签中抽取,网页关键词信息可以从<metaname=”keywords”>标签中抽取;步骤5.2、构造位置-关键词词频矩阵:位置-关键词词频矩阵是一个m*n的矩阵,m为不同位置的个数,n为主题关键词个数;矩阵中每一个分量tfij表示第i个位置上第j个关键词的词频,词频的计算方法为nij表示第i个位置上第j个关键词出现的次数,∑knik表示第i个位置上所有关键词出现的总数;步骤5.3、计算网页主题特征向量:第一个矩阵是一个1*m的位置权值矩阵,代表着不同位置的重要程度,pi表示第i个位置的权值;第二个矩阵是一个m*n的位置-关键词词频矩阵,代表不同位置不同关键词出现频率;步骤5.4、用余弦相似度计算主题特征向量和网页主题特征向量的相似度:其中,wi表示第i个关键词的权重。4.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤6具体包括以下子步骤:步骤6.1、URL链接锚文本主题相关度:网页中的超链接按照页面表现形式可以分为三类:纯文字超链接、纯图片超链接、图文混合超链接;在抽取URL链接的锚文本时,纯图片抽链接无法直接提取超链接的文字信息;分别抽取超链接锚文本和图片描述信息,并分别计算两个信息的主题相关度选择相关度大的文本作为URL链接锚文本并确定锚文本主题相关度;步骤6.2、URL链接周围文字主题相关度:超链接在网页中出现的位置可以分类两类:文本环绕、链接环绕;文本环绕的超链接的周围文字一般为网页正文内容的一部分,从网页DOM树形结构看,超链接节点的祖先节点中一般会出现<p>、<div>节点;链接环绕的超链接的周围文字一般为链接列表中其他链接的锚文本,从网页DOM树形结构看,超链接节点的祖先节点中一定会出现<ul>、<ol>、<dd>、<tr>等用于控制元素排版的节点;因此,在抽取URL链接周围文字信息时根据超链接特定祖先节点的不同得到相应的文字信息;分别统计各关键词在文本中出现的频率,使用余弦相似度计算URL链接周围文字的主题相关度;步骤6.3、URL所在页面主题相关度:网页主题相关度在步骤5中已经求解得到;步骤6.4、URL所在页面子链接主题相关度均值:在步骤6.1计算了所有子链接的锚文本主题相关度后,计算主题相关度大于0的子链接主题相关度均值;计算公式如下:其中,k为锚文本主题相关度大于0的子链接个数,simi为第i个主题相关子链接的主题相关度;步骤6.5、父URL链接价值:父URL链接价值为当前页面对应URL被抽取后计算的潜在价值估计值,该价值在URL被抽取时一起放入待爬行队列;当对应目标页面下载并计算主题相关度后,需要根据当前页面正文内容主题相关度修正潜在价值估计值;基于增强学习的思想,父URL链接价值的修正值计算如下:new_parent_value=old_parent_value+γ×text_similarity其中,old_parent_value为父URL链接价值估计值,new_parent_...

【专利技术属性】
技术研发人员:李石君黎文丹杨济海余伟余放李宇轩
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1