一种网站列表页面的分类方法、系统及存储介质技术方案

技术编号:27203758 阅读:23 留言:0更新日期:2021-01-31 12:20
本发明专利技术涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。页是否为网站列表页面。页是否为网站列表页面。

【技术实现步骤摘要】
一种网站列表页面的分类方法、系统及存储介质


[0001]本专利技术涉及网页分类的
,特别涉及一种基于HTML Tag的N-gram特征的网站列表页面(Board页)的分类方法及系统。

技术介绍

[0002]近年来随着互联网的逐步发展,网络已经成为了最大的数据来源。长久以来人们都在关注于互联网数据采集任务。一种常见的采集方式是定制化的采集,即针对某个或某种特定网站进行定制化开发,分析网站链接情况,然后根据其页面以及网络特征构建数据抽取方法。
[0003]互联网中的数据往往可以按照其发布和交互形式分为新闻,论坛,博客等不同的信息来源,每个信息来源都有其特定的格式,如新闻数据源,其数据包含了新闻正文,新闻作者,新闻题目,新闻评论等数据,每个新闻页都有着其所属分类。同样的论坛也划分为板块,论坛的数据包含了论坛主贴,论坛回帖等内容。针对每个信息来源,甚至每个网站的定制性开发采集器必然导致了采集器不能够被复用。这是对于开发的一种浪费。通过对于大量的、多信息来源网站的调研发现,虽然不同信息来源的网络数据结构具有着不同的形式,但是,却具有着一定的通用特征。比如,新闻信息来源中的网站,无论是按照内容分类,还是网站首页,都有着类似于列表的页面,该页面按照一定的规则,直接显式的列出相关的新闻文章链接,并且,取决于相关规则下所有文章的多少,页面上也会有相关的翻页链接,能够帮助获取更多的文章。类似的,对于博客信息来源中的网站,也会有类似的结构,往往会更明显的为个人首页,或者个人时间线。论坛信息来源中的网站同样的,也存在相似的结构
[0004]对于这种结构,可将其归纳为Board-Article结构,其中列表页面被称为Board页,真正的待采集的数据页面被称为Article页。Board页通常是主题相关的,即一个Board页上所有的Article页链接往往是围绕着一个统一的主题,或者具有统一的强特征的。这种Board页的特性保证了通过一个Board页能够捕获到需求主题下的数据,从而避免了冗余数据的采集。Board页作为入口页面,和Article页面具有着树形结构,而不是开放式的图结构,这就使得对于数据变化的感知能够通过扫描Board页实现。通过对于Board页的分析,便可轻易地获得数据的变化,从而更加高效的追踪数据。因此,如何从网站中发现Board页成为定制化采集必须解决的问题。
[0005]Board页的发现方法主要有以下几种:
[0006](1)基于人工:即采用人工方式从网站中筛选出Board页。由于网页具有显著的多样性,使得面对大规模网站,尤其大型网站时,人工筛选Board页的代价是相当昂贵的。同时,网站的频繁改版也增大了Board页的不稳定性,需要进一步付出人工代价重新筛选Board页。
[0007](2)基于规则:即把人工筛选Board页的经验转换成规则,基于规则模拟人从网站中发现Board页。同样的,网页具有显著的多样性,使得基于规则的方法存在泛化能力弱的固有缺陷,无法保证Board页的召回率和准确度。
[0008]因此,已有的Board页发现方法主要依赖人对Board页的直观认知,无法充分利用Board页的各种特征,尤其是一些隐藏的规律特征,使得方法的泛化能力弱,进而无法保证Board页的召回率和准确度,这些都会在很大程度上影响定制化采集的数据质量。

技术实现思路

[0009]为了解决上述技术问题,本专利技术目的在于提供一种基于HTML Tag的网站列表页面(Board页)的分类方法及系统。本专利技术的Board页分类方法更好地利用了Board页的视觉特征,并利用神经网络模型更好地捕捉到Board页各种隐含特征,具有更好的泛化能力。
[0010]具体地说,本专利技术公开了一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:
[0011]步骤100、获取一组网站网页;
[0012]步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;
[0013]步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;
[0014]步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
[0015]根据所述的网站列表页面的分类方法,其中,所述统计特征包括:
[0016]各所述超文本标记语言标签(HTML Tag)的出现次数及该次数的倒数;
[0017]各所述超文本标记语言标签(HTML Tag)有链接的次数及该次数的倒数;
[0018]各所述超文本标记语言标签(HTML Tag)有文本的次数及该次数的倒数;
[0019]所述网站页面的链接长度及该链接长度的倒数;
[0020]所述网站页面的链接深度及该链接深度的倒数;
[0021]纯文本的超文本标记语言标签(HTML Tag)中文本数量的极值及该极值的倒数;
[0022]所述超文本标记语言标签(HTML Tag)中文本数量的方差及该方差的倒数;
[0023]所述超文本标记语言标签(HTML Tag)中文本数量的均值及该均值的倒数;
[0024]所述超文本标记语言标签(HTML Tag)中文本数量的均方差及该均方差的倒数。
[0025]根据所述的网站列表页面的分类方法,其中,所述结构特征包括N元语法(N-gram)特征,其中所述N元语法特征包括一元语法(uni-gram)特征和二元语法(bi-gram)特征。
[0026]根据所述的网站列表页面的分类方法,其中,所述N元语法特征的提取步骤包括:
[0027]步骤210,将每一所述网站网页解析成文档对象模型(DOM)树,并将文档对象模型(DOM)树表达为一HTML标签序列;
[0028]步骤220,对所述HTML标签序列中的各标签元素进行分类;
[0029]步骤230,针对所述HTML标签序列中的各不同类别的标签元素提取所述N元语法特征。
[0030]根据所述的网站列表页面的分类方法,其中,于所述步骤220中,所述HTML标签序列中的所述标签元素划分为:含有外链接的标签、不含外链接的标签和文本标签;
[0031]其中,所述含有外链接的标签中包含有指向外部的链接地址(URL),所述不含外链
接的标签中不包含指向外部的链接地址,所述文本标签由所述含有外链接的标签和所述不含外链接的标签之外的部分构成。
[0032]根据所述的网站列表页面的分类方法,其中,所述神经网络为全连接神经网络,所述全连接神经网络包括输入层、隐藏层和输出层。
[0033]根据所述的网站列表页面的分类方法,其中,所述全连接神经网络的激活函数为Gelu函数,损失函数为交叉熵函数。
...

【技术保护点】

【技术特征摘要】
1.一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),其特征在于,所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。2.根据权利要求1所述的网站列表页面的分类方法,其特征在于,所述统计特征包括:各所述超文本标记语言标签(HTML Tag)的出现次数及该次数的倒数;各所述超文本标记语言标签(HTML Tag)有链接的次数及该次数的倒数;各所述超文本标记语言标签(HTML Tag)有文本的次数及该次数的倒数;所述网站页面的链接长度及该链接长度的倒数;所述网站页面的链接深度及该链接深度的倒数;纯文本的超文本标记语言标签(HTML Tag)中文本数量的极值及该极值的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的方差及该方差的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的均值及该均值的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的均方差及该均方差的倒数。3.根据权利要求1所述的网站列表页面的分类方法,其特征在于,所述结构特征包括N元语法(N-gram)特征,其中所述N元语法特征包括一元语法(uni-gram)特征和二元语法(bi-gram)特征。4.根据权利要求3所述的网站列表页面的发现方法,其特征在于,所述N元语法特征的提取步骤包括:步骤210,将每一所述网站网页解析成文档对象模型(DOM)树,并将文档对象模型(DOM)树表达为一HTML标签序列;步骤220,对所述HTML标签序列中的各标签元素进行分类;步骤230,针对所述HTML标签序列中的各不同类别的标签元素提取所述N元语法特征。5.根据权利要求4所述的网站列表页面的分类方法,其特征在于,于所述步骤220中,所述HTML标签序列中的所述标签元素划分为:含有外链接的标签、不含外链接的标签和文本标签;其中,所述含有外链接的标签中包含有指向外部的链接地址(URL),所述不含外链接的标签中不包含指向外部的链接地址,所述文本标签由所述含有外链接的标签和所述不含外链接的标签之外的部分构成。6.根据权利要求...

【专利技术属性】
技术研发人员:孟剑郭岩贺广福史存会陈银鹏俞晓明刘悦程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1