一种网站列表页面的分类方法、系统及存储介质技术方案

技术编号:27203759 阅读:17 留言:0更新日期:2021-01-31 12:20
本发明专利技术涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。该公共父节点即为列表页面。该公共父节点即为列表页面。

【技术实现步骤摘要】
一种网站列表页面的分类方法、系统及存储介质


[0001]本专利技术涉及网页分类的
,特别涉及一种基于异质空间关联映射的Board页的自动分类方法及系统。

技术介绍

[0002]近年来随着互联网的逐步发展,网络已经成为了最大的数据来源。长久以来人们都在关注于互联网数据采集任务。一种常见的采集方式是定制化的采集,即针对某个或某种特定网站进行定制化开发,分析网站链接情况,然后根据其页面以及网络特征构建数据抽取方法。
[0003]互联网中的数据往往可以按照其发布和交互形式分为新闻,论坛,博客等不同的信息来源,每个信息来源都有其特定的格式,如新闻数据源,其数据包含了新闻正文,新闻作者,新闻题目,新闻评论等数据,每个新闻页都有着其所属分类。同样的论坛也划分为板块,论坛的数据包含了论坛主贴,论坛回帖等内容。针对每个信息来源,甚至每个网站的定制性开发采集器必然导致了采集器不能够被复用。这是对于开发的一种浪费。通过对于大量的、多信息来源网站的调研发现,虽然不同信息来源的网络数据结构具有着不同的形式,但是,却具有着一定的通用特征。比如,新闻信息来源中的网站,无论是按照内容分类,还是网站首页,都有着类似于列表的页面,该页面按照一定的规则,直接显式的列出相关的新闻文章链接,并且,取决于相关规则下所有文章的多少,页面上也会有相关的翻页链接,能够帮助获取更多的文章。类似的,对于博客信息来源中的网站,也会有类似的结构,往往会更明显的为个人首页,或者个人时间线。论坛信息来源中的网站同样也存在相似的结构,对于这种结构,可将其归纳为Board-atricle结构,其中列表页面被称为Board页,真正的待采集的数据页面被称为Article页。
[0004]而Board页通常是主题相关的,即一个Board页上所有的Article页链接往往是围绕着一个统一的主题,或者具有统一的强特征的。这种Board页的特性保证了通过一个Board页能够捕获到需求主题下的数据,从而避免了冗余数据的采集。Board页作为入口页面,和Article页面具有着树形结构,而不是开放式的图结构,这就使得对于数据变化的感知能够通过扫描Board页实现。通过对于Board页的分析,便可轻易地获得数据的变化,从而更加高效的追踪数据。因此,如何从网站中发现Board页成为定制化采集必须解决的问题。
[0005]目前,Board页的发现方法主要有以下几种:
[0006](1)基于人工:即采用人工方式从网站中筛选出Board页。由于网页具有显著的多样性,使得面对大规模网站,尤其大型网站时,人工筛选Board页的代价是相当昂贵的。同时,网站的频繁改版也增大了Board页的不稳定性,需要进一步付出人工代价重新筛选Board页。
[0007](2)基于规则:即把人工筛选Board页的经验转换成规则,基于规则模拟人从网站中发现Board页。同样的,网页具有显著的多样性,使得基于规则的方法存在泛化能力弱的固有缺陷,无法保证Board页的召回率和准确度。
[0008]因此,已有的Board页发现方法主要依赖人对Board页的直观认知,无法充分利用Board页的各种特征,尤其是一些隐藏的规律特征,使得方法的泛化能力弱,进而无法保证Board页的召回率和准确度,这些都会在很大程度上影响定制化采集的数据质量。

技术实现思路

[0009]为了解决上述技术问题,本专利技术目的在于提供一种基于异质空间关联映射的Board页的分类方法及系统,根据页面的不同特征可以将其表达在不同的特征空间中,然后在不同特征空间之间建立联系,进而充分利用多种特征识别Board页。
[0010]具体地说,本专利技术公开了一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),所述方法包括:
[0011]步骤100,获取网站页面集合,所述页面归属于同一网站;
[0012]步骤200,提取每一所述网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;
[0013]步骤300,在所述DOM树结构特征空间和页面文本特征空间针对所述DOM树结构特征和所述页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;
[0014]步骤400,根据所述网站页面的网址链接(URL),在所述结构类簇与所述文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在所述网站中的最近公共父节点,该公共父节点即为列表页面。
[0015]根据上述分类方法,其中,所述页面文本特征的提取步骤包括:
[0016]步骤210,根据超文本标记语言(HTML)规则,提取所述网站页面的标题和内容信息;
[0017]步骤230,将所述信息通过词嵌入方法(WordEmbedding)进行编码,得到词的向量表示,再结合Concatenated p-mean,以及SIF方法对句子进行编码,得到所述网站页面的文本特征。
[0018]根据上述分类方法,其中,所述网站页面的文本特征还包括文本长度、文本类别、文本段落数、句子数。
[0019]根据上述分类方法,其中,其特征在于,所述DOM树结构特征的提取步骤包括:
[0020]步骤220,将所述DOM树按层遍历,获取所述DOM树的HTML序列、所述DOM树中各类节点的个数、所述DOM树中外链接的数量以及所述DOM树的节点数;
[0021]步骤240,将这些特征进行填充(padding)后合并(concat)起来,形成所述页面的DOM树结构特征。
[0022]根据上述分类方法,其中,所述页面文本特征空间的所述页面文本特征聚类的步骤包括:
[0023]步骤310,对所述页面文本特征,使用k均值聚类算法(Kmeans)进行聚类,得到所述文本类簇;
[0024]步骤330,线性探测不同k值,根据得到的所述文本类簇的离散度拐点,选择最优k值。
[0025]根据上述分类方法,其中,在所述DOM树结构特征空间使用谱聚类的方法对所述
DOM树结构特征进行聚类。
[0026]为实现本专利技术的另一目的,本专利技术还提供一种网站列表页面的分类系统,所述网站系基于超文本标记语言(HTML),其特征在于,所述系统包括:
[0027]网页获取模块,用于获取网站页面集合,所述页面归属于同一网站;
[0028]特征提取模块,用于提取每一所述网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;
[0029]特征聚类模块,用于在所述DOM树结构特征空间和页面文本特征空间针对所述DOM树结构特征和所述页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;
[0030]映射分类模块,用于根据所述网站页面的网址链接(URL),在所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),其特征在于,所述方法包括:步骤100,获取网站页面集合,所述页面归属于同一网站;步骤200,提取每一所述网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在所述DOM树结构特征空间和页面文本特征空间针对所述DOM树结构特征和所述页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据所述网站页面的网址链接(URL),在所述结构类簇与所述文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在所述网站中的最近公共父节点,该公共父节点即为列表页面。2.根据权利要求1所述的分类方法,其特征在于,所述页面文本特征的提取步骤包括:步骤210,根据超文本标记语言(HTML)规则,提取所述网站页面的标题和内容信息;步骤230,将所述标题和内容信息通过词嵌入方法(WordEmbedding)进行编码,得到词的向量表示,再结合Concatenated p-mean方法,以及平滑倒词频方法(SIF)对句子进行编码,得到所述网站页面的文本特征。3.根据权利要求2所述的分类方法,其特征在于,所述网站页面的文本特征还包括文本长度、文本类别、文本段落数、句子数。4.根据权利要求1-3任一项所述的分类方法,其特征在于,所述DOM树结构特征的提取步骤包括:步骤220,将所述DOM树按层遍历,获取所述DOM树的HTML序列、所述DOM树中各类节点的个数、所述DOM树中外链接的数量以及所述DOM树的节点数;步骤240,将这些特征进行填充(padding)后合并(concat)起来,形成所述页面的DOM树结构特征。5.根据权利要求4所述的分类方法,其特征在于,所述页面文本特征空间的所述页面文本特征聚类的步骤包括:步骤31...

【专利技术属性】
技术研发人员:孟剑郭岩贺广福陈银鹏史存会俞晓明刘悦程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1