【技术实现步骤摘要】
一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法
本专利技术涉及一种网络页面爬行链接预测方法。所述方法中网络爬虫沿着URL链接构成的网络拓扑图爬行,通过历史爬行过程的累计奖赏信息和URL特征预测URL链接的主题价值,并依据链接主题价值的大小选择下一个目标网页。
技术介绍
随着互联网的推广和普及,网络上出现了越来越多的资源,快速定位资源所在主机的位置并获取资源成为了搜索引擎诞生的重要原因之一。从1993年至今,搜索引擎从最初的网页分类目录到关注用户个性需求的搜索,全网搜索引擎如:Yahoo!、Google、Bing、Baidu等已经完全融入人们的日常生活。全网搜索引擎搭建在大规模计算机集群之上,定期收集整个互联网中所有资源的信息并建立索引以供用户查询。全网搜索引擎在一定程度上满足了用户快速索引网络资源的需求,但它也存在消耗大量网络资源、构建成本高昂、搜索结果主题宽泛等问题。为了提高搜索结果的主题相关度,聚焦搜索引擎应运而生。聚焦搜索消耗网络资源少、构建成本低、搜索结果范围与主题密切相关。聚焦爬虫是聚焦搜索引擎的关键模块,与通用爬虫不同之处在于,聚焦爬虫只下载与主题相关的网页以便于确定主题的精确搜索。为了更好的节约网络带宽等资源,正确且高效的定位Web网络中的主题相关网页成为聚焦爬虫面临的重要问题。经过研究者长时间的研究和实验,定位主题相关网页主要依靠主题概念的构建、网页内容主题相关性分析、链接主题相关性分析。链接主题相关性分析是影响聚焦爬虫爬行效果的重要问题之一,其目标是在不下载链接对应目标网页的情况下预测目标网页主题相关度。由于聚焦爬虫的目标是尽可能多 ...
【技术保护点】
1.一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,包括:步骤1,用户根据需要配置主题相关的种子站点URL集合、配置主题相关关键词及其对应权重;在聚焦爬虫启动时,系统自动载入主题相关URL和主题关键词;步骤2,构建两个具有相同结构的神经网络,并初始化各层神经元的权重和偏置;构建大小为MEMORY_SIZE的记忆库,用于存放历史信息;指定训练集的大小为BATCH_SIZE;步骤3,给每个种子站点URL设置一个默认链接价值,并将种子站点URL放入待爬行队列;步骤4,在待爬行队列中按URL链接的主题价值大小逆序排列,链接主题价值包含了对链接目标网页主题相关度的预测和从该链接出发能找到主题相关页面的潜力的预测,选择主题价值最大的URL链接作为爬行目标;步骤5,下载器下载爬行目标对应的目标网页,从网页中抽取网页内容相关信息并计算网页主题相关度;步骤6,从目标网页中抽取子链接URL,将子链接的文字信息和结构信息特征化,得到子链接特征向量;子链接的特征项包括以下八项:URL锚文本主题相关度、URL周围文字主题相关度、URL所在页面主题相关度、URL所在页面子链接锚文本主题相关度均值 ...
【技术特征摘要】
1.一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,包括:步骤1,用户根据需要配置主题相关的种子站点URL集合、配置主题相关关键词及其对应权重;在聚焦爬虫启动时,系统自动载入主题相关URL和主题关键词;步骤2,构建两个具有相同结构的神经网络,并初始化各层神经元的权重和偏置;构建大小为MEMORY_SIZE的记忆库,用于存放历史信息;指定训练集的大小为BATCH_SIZE;步骤3,给每个种子站点URL设置一个默认链接价值,并将种子站点URL放入待爬行队列;步骤4,在待爬行队列中按URL链接的主题价值大小逆序排列,链接主题价值包含了对链接目标网页主题相关度的预测和从该链接出发能找到主题相关页面的潜力的预测,选择主题价值最大的URL链接作为爬行目标;步骤5,下载器下载爬行目标对应的目标网页,从网页中抽取网页内容相关信息并计算网页主题相关度;步骤6,从目标网页中抽取子链接URL,将子链接的文字信息和结构信息特征化,得到子链接特征向量;子链接的特征项包括以下八项:URL锚文本主题相关度、URL周围文字主题相关度、URL所在页面主题相关度、URL所在页面子链接锚文本主题相关度均值、父URL的链接价值、距离为1的父页面主题相关度均值、距离为2的父页面主题相关度均值、距离为3的父页面主题相关度均值;步骤7,用增强学习方法和两个结构相同参数不同的神经网络计算URL的链接价值实际值和估计值,并计算误差,用梯度下降法优化神经网络参数并更新两个神经网络的参数;步骤8,将子链接及其相应价值估计值放入待爬行的优先队列;步骤9,重复步骤4至步骤8直至满足停止条件;当满足以下任意条件即可停止:条件一、超过爬行时间阈值;条件二、爬行深度超过深度阈值;条件三、无法获取新的URL地址。2.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤2具体操作方法是:构建的两个三层神经网络中,神经网络的第一层为输入层,神经元个数与特征向量的维数一致;神经网络的第二层为隐藏层具有至少16个神经元;神经网络的第三层为输出层,只有一个神经元,使用relu作为激活函数。3.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤5具体包括以下子步骤:步骤5.1、抽取网页不同位置的文字信息:能够概括和表达网页内容主题的文字信息包括:网页URL链接锚文本、网页标题、网页描述信息、网页关键词信息、网页正文内容;网页标题可以从<title>标签中抽取,网页描述信息可以从<metaname=”description”>标签中抽取,网页关键词信息可以从<metaname=”keywords”>标签中抽取;步骤5.2、构造位置-关键词词频矩阵:位置-关键词词频矩阵是一个m*n的矩阵,m为不同位置的个数,n为主题关键词个数;矩阵中每一个分量tfij表示第i个位置上第j个关键词的词频,词频的计算方法为nij表示第i个位置上第j个关键词出现的次数,∑knik表示第i个位置上所有关键词出现的总数;步骤5.3、计算网页主题特征向量:第一个矩阵是一个1*m的位置权值矩阵,代表着不同位置的重要程度,pi表示第i个位置的权值;第二个矩阵是一个m*n的位置-关键词词频矩阵,代表不同位置不同关键词出现频率;步骤5.4、用余弦相似度计算主题特征向量和网页主题特征向量的相似度:其中,wi表示第i个关键词的权重。4.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤6具体包括以下子步骤:步骤6.1、URL链接锚文本主题相关度:网页中的超链接按照页面表现形式可以分为三类:纯文字超链接、纯图片超链接、图文混合超链接;在抽取URL链接的锚文本时,纯图片抽链接无法直接提取超链接的文字信息;分别抽取超链接锚文本和图片描述信息,并分别计算两个信息的主题相关度选择相关度大的文本作为URL链接锚文本并确定锚文本主题相关度;步骤6.2、URL链接周围文字主题相关度:超链接在网页中出现的位置可以分类两类:文本环绕、链接环绕;文本环绕的超链接的周围文字一般为网页正文内容的一部分,从网页DOM树形结构看,超链接节点的祖先节点中一般会出现<p>、<div>节点;链接环绕的超链接的周围文字一般为链接列表中其他链接的锚文本,从网页DOM树形结构看,超链接节点的祖先节点中一定会出现<ul>、<ol>、<dd>、<tr>等用于控制元素排版的节点;因此,在抽取URL链接周围文字信息时根据超链接特定祖先节点的不同得到相应的文字信息;分别统计各关键词在文本中出现的频率,使用余弦相似度计算URL链接周围文字的主题相关度;步骤6.3、URL所在页面主题相关度:网页主题相关度在步骤5中已经求解得到;步骤6.4、URL所在页面子链接主题相关度均值:在步骤6.1计算了所有子链接的锚文本主题相关度后,计算主题相关度大于0的子链接主题相关度均值;计算公式如下:其中,k为锚文本主题相关度大于0的子链接个数,simi为第i个主题相关子链接的主题相关度;步骤6.5、父URL链接价值:父URL链接价值为当前页面对应URL被抽取后计算的潜在价值估计值,该价值在URL被抽取时一起放入待爬行队列;当对应目标页面下载并计算主题相关度后,需要根据当前页面正文内容主题相关度修正潜在价值估计值;基于增强学习的思想,父URL链接价值的修正值计算如下:new_parent_value=old_parent_value+γ×text_similarity其中,old_parent_value为父URL链接价值估计值,new_parent_...
【专利技术属性】
技术研发人员:李石君,黎文丹,杨济海,余伟,余放,李宇轩,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。