一种网站列表页面的分类方法、系统及存储介质技术方案

技术编号:27203815 阅读:35 留言:0更新日期:2021-01-31 12:20
本发明专利技术涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。否为网站列表页面。否为网站列表页面。

【技术实现步骤摘要】
一种网站列表页面的分类方法、系统及存储介质


[0001]本专利技术涉及网页分类的
,特别涉及一种基于网络结构特征的Board页分类方法及系统。

技术介绍

[0002]近年来随着互联网的逐步发展,网络已经成为了最大的数据来源。长久以来人们都在关注于互联网数据采集任务。一种常见的采集方式是定制化的采集,即针对某个或某种特定网站进行定制化开发,分析网站链接情况,然后根据其页面以及网络特征构建数据抽取方法。
[0003]互联网中的数据往往可以按照其发布和交互形式分为新闻,论坛,博客等不同的信息来源,每个信息来源都有其特定的格式,如新闻数据源,其数据包含了新闻正文,新闻作者,新闻题目,新闻评论等数据,每个新闻页都有着其所属分类。同样的论坛也划分为板块,论坛的数据包含了论坛主贴,论坛回帖等内容。针对每个信息来源,甚至每个网站的定制性开发采集器必然导致了采集器不能够被复用。这是对于开发的一种浪费。通过对于大量的、多信息来源网站的调研发现,虽然不同信息来源的网络数据结构具有着不同的形式,但是,却具有着一定的通用特征。比如,新闻信息来源中的网站,无论是按照内容分类,还是网站首页,都有着类似于列表的页面,该页面按照一定的规则,直接显式的列出相关的新闻文章链接,并且,取决于相关规则下所有文章的多少,页面上也会有相关的翻页链接,能够帮助获取更多的文章。类似的,对于博客信息来源中的网站,也会有类似的结构,往往会更明显的为个人首页,或者个人时间线。论坛信息来源中的网站同样的,也存在相似的结构。
[0004]对于这种结构,可将其归纳为Board-Article结构,其中列表页面被称为Board页,真正的待采集的数据页面被称为Article页。Board页通常是主题相关的,即一个Board页上所有的Article页链接往往是围绕着一个统一的主题,或者具有统一的强特征的。这种Board页的特性保证了通过一个Board页能够捕获到需求主题下的数据,从而避免了冗余数据的采集。Board页作为入口页面,和Article页面具有着树形结构,而不是开放式的图结构,这就使得对于数据变化的感知能够通过扫描Board页实现。通过对于Board页的分析,便可轻易地获得数据的变化,从而更加高效的追踪数据。因此,如何从网站中发现Board页成为定制化采集必须解决的问题。
[0005]Board页的发现方法主要有以下几种:
[0006](1)基于人工:即采用人工方式从网站中筛选出Board页。由于网页具有显著的多样性,使得面对大规模网站,尤其大型网站时,人工筛选Board页的代价是相当昂贵的。同时,网站的频繁改版也增大了Board页的不稳定性,需要进一步付出人工代价重新筛选Board页。
[0007](2)基于规则:即把人工筛选Board页的经验转换成规则,基于规则模拟人从网站中发现Board页。同样的,网页具有显著的多样性,使得基于规则的方法存在泛化能力弱的固有缺陷,无法保证Board页的召回率和准确度。
[0008]因此,已有的Board页发现方法主要基于人工和基于规则,主要依赖人对Board页的直观认知,无法充分利用Board页的各种特征,尤其是一些隐藏的规律特征,使得方法的泛化能力弱,进而无法保证Board页的召回率和准确度,这些都会在很大程度上影响定制化采集的数据质量。

技术实现思路

[0009]为了解决上述技术问题,本专利技术目的在于提供一种基于网络结构特征的Board页的分类方法及系统,更好地利用了页面的各种特征,尤其利用了网站的全局结构特征,并利用图卷积神经网络模型更好地捕捉Board页各种隐含特征,具有更好的泛化能力。
[0010]具体地说,本专利技术公开了一种网站列表页面的分类方法,其特征在于,所述方法包括:
[0011]步骤100,获取一组网站页面集合,所述网站页面集合归属于同一网站;
[0012]步骤200,分别针对每一所述网站页面提取网页数据特征,所述网页数据特征包括网页链接地址(URL)特征、文档对象模型(DOM)的树结构特征和网页视觉特征;
[0013]步骤300,通过所述网站页面的超链接列表以及所述网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建所述网站的全局拓扑结构;
[0014]步骤400,将所述网页数据特征以及所述网站的全局拓扑结构输入图卷积神经网络进行所述图卷积神经网络的训练,得到网站列表页面分类器;
[0015]步骤500,获取待分类的网站网页,分别根据所述步骤200和步骤300得到所述待分类的网站网页的所述网页数据特征和所述网站的全局拓扑结构,并将所述待分类的网站网页的所述网页数据特征和所述网站的全局拓扑结构输入所述步骤400得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
[0016]根据上述分类方法,其中,所述网站的全局拓扑结构表示为邻接矩阵A,所述邻接矩阵A为稀疏矩阵;所述网页数据特征表示为特征矩阵X。
[0017]根据上述分类方法,其中,所述图卷积神经网络上具有谱图卷积模块,用于半监督所述网站页面的分类,所述谱图卷积模块包括:
[0018]第一谱图卷积模块,包含第一谱图卷积层、ReLu激活函数以及Dropout机制;和
[0019]第二谱图卷积模块,包含第二谱图卷积层、ReLu激活函数以及Dropout机制;
[0020]其中,所述第一谱图卷积层上具有第一参数矩阵W
(0)
,用于将所述网站页面的特征表示映射为相应的隐层表示;所述第二谱图卷积层上具有第二参数矩阵W
(1)
,用于将所述网站页面的隐层表示映射为相应的输出。
[0021]根据上述分类方法,其中,所述图卷积神经网络上还包括一输出模块,连接于所述谱图卷积模块,所述输出模块为softmax层。
[0022]根据上述分类方法,其中,所述图卷积神经网络的训练公式为:
[0023][0024]其中,是归一化后的邻接矩阵。
[0025]根据上述分类方法,其中,于所述图卷积神经网络的训练过程中,所述第一参数矩阵W
(0)
和所述第二参数矩阵W
(1)
分别通过梯度下降法更新参数。
[0026]为实现本专利技术的另一目的,本专利技术还提供一种网站列表页面的分类系统,所述系统包括:
[0027]网页获取模块,用于获取一组网站页面集合,所述网站页面集合归属于同一网站;
[0028]特征提取模块,用于分别针对每一所述网站页面提取网页数据特征,并通过所述网站页面的超链接列表以及所述网站页面的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建所述网站的全局拓扑结构;
[0029]网页分类模块,具有预先训练好的图卷积神经网络分类模型,所述图卷积神经网络分类模型用于根据所述网页数据特征和所述网站的全局拓扑结构判断所述网站网页是否为网站列表页面。
[0030]根据上述分类系统,其中,所述网页数据特征包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网站列表页面的分类方法,其特征在于,所述方法包括:步骤100,获取一组网站页面集合,所述网站页面集合归属于同一网站;步骤200,分别针对每一所述网站页面提取网页数据特征,所述网页数据特征包括网页链接地址(URL)特征、文档对象模型(DOM)的树结构特征和网页视觉特征;步骤300,通过所述网站页面的超链接列表以及所述网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建所述网站的全局拓扑结构;步骤400,将所述网页数据特征以及所述网站的全局拓扑结构输入图卷积神经网络进行所述图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据所述步骤200和步骤300得到所述待分类的网站网页的所述网页数据特征和所述网站的全局拓扑结构,并将所述待分类的网站网页的所述网页数据特征和所述网站的全局拓扑结构输入所述步骤400得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。2.根据权利要求1所述的分类方法,其特征在于,所述网站的全局拓扑结构表示为邻接矩阵A,所述邻接矩阵A为稀疏矩阵;所述网页数据特征表示为特征矩阵X。3.根据权利要求2所述的分类方法,其特征在于,所述图卷积神经网络上具有谱图卷积模块,用于半监督所述网站页面的分类,所述谱图卷积模块包括:第一谱图卷积模块,包含第一谱图卷积层、ReLu激活函数以及Dropout机制;和第二谱图卷积模块,包含第二谱图卷积层、ReLu激活函数以及Dropout机制;其中,所述第一谱图卷积层上具有第一参数矩阵W
(0)
,用于将所述网站页面的特征表示映射为相应的隐层表示;所述第二谱图卷积层上具有第二参数矩阵W
(1)
,用于将所述网站页面的隐层表示映射为相应的输出。4.根据权利要求3所述的分类方法,其特征在于,所述图卷积神经网络上还包括一输出模块,连接于所述谱图卷积模块,所述输出模块为softmax层。5.根据权利要求4所述的分类方法,其特征在于,所述图卷积神经网络的训练公式为:其中,是归一化后的邻接矩阵。6.根据权利要求4或5所述的分类方法,其特征在于,于所述图卷积神经网络的训练过程中,所述第一参数矩阵W
(0)

【专利技术属性】
技术研发人员:孟剑樊晓然郭岩贺广福陈银鹏史存会俞晓明刘悦程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1