一种双维度分类提取网页链接的方法技术

技术编号:16038214 阅读:69 留言:0更新日期:2017-08-19 20:03
一种双维度分类提取网页链接的方法,构建了对板块标题进行分类的贝叶斯分类器以及针对链接标题进行匹配的卷积神经网络,并将两种分类器有机结合起来,提高了网页中与主题相关链接提取的准确度,改变了以往需要设计网站特征模板和用户填写模板的方式,通过程序智能地发现并自动地提取感兴趣的链接,无需设计网站特征模板,也无需用户填写模板,节省了大量的人力物力,借助于机器学习的方式,提高了处理速度,能够适应网页的结构或样式的频繁更新,并提高了获取主题相关链接的准确度。

【技术实现步骤摘要】
一种双维度分类提取网页链接的方法
本专利技术涉及一种提取网页链接的方法,尤其涉及一种双维度分类提取网页链接的方法,属于数据处理

技术介绍
近年来,万维网信息爆炸式增长,但由于时间、精力和兴趣有限,用户往往只对某一类或某几类信息感兴趣。在这种情况下,针对用户兴趣或具体行业需求提供网页信息搜索服务的公司或网站大量涌现出来,比如,专门提供体育比赛信息的网站,专门提供股票信息的网站等。这些公司或网站通过使用主题网络爬虫来为用户精准提供感兴趣的信息。这类爬虫根据一定的算法过滤与主题无关的链接,保留与主题相关的链接并将其放入待抓的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到满足某一条件时停止。这类爬虫的设计有两大难点。首先,需设计高效准确的网页分析或链接分类算法,提取出用户需要的链接,滤除无关链接。其次,在系统资源、带宽资源和爬取时间有限的情况下,需尽量多地发现并爬取最有价值的网站。在不少实际应用中,符合某一主题的信息可从专门的内容提供网站获取。以体育新闻为例,这类信息可从新浪、腾讯、网易等主流网站上抓取。在这种情况下,主题爬虫仅需爬取本文档来自技高网...
一种双维度分类提取网页链接的方法

【技术保护点】
一种双维度分类提取网页链接的方法,其特征在于包括以下步骤:a、首先构建一个对网页中板块标题进行分类的贝叶斯分类器以及一个针对网页中链接标题进行匹配的卷积神经网络;b、为贝叶斯分类器和卷积神经网络分别获取并标记一定数量的样本形成训练集和测试集,对于贝叶斯分类器,其训练集和测试集中的样本为板块的标题;对于卷积神经网络,其训练集和测试集中的样本为链接的标题。

【技术特征摘要】
1.一种双维度分类提取网页链接的方法,其特征在于包括以下步骤:a、首先构建一个对网页中板块标题进行分类的贝叶斯分类器以及一个针对网页中链接标题进行匹配的卷积神经网络;b、为贝叶斯分类器和卷积神经网络分别获取并标记一定数量的样本形成训练集和测试集,对于贝叶斯分类器,其训练集和测试集中的样本为板块的标题;对于卷积神经网络,其训练集和测试集中的样本为链接的标题。2.样本分为正负两类,正样本与目标主题相关,负样本与目标主题无关;c、利用训练样本对贝叶斯分类器和卷积神经网络分别进行训练,直至在测试集上取得较好的性能;d、利用网络爬虫抓取网页,保存至本地,并利用工具从网页中提取出链接;e、判断所提取的候选链接之间的关系,如父子、后代等,将拥有相同父标签的链接信息聚为同一类,每一类对应于一个板块,同时提...

【专利技术属性】
技术研发人员:袁巍李珩李佳桓
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1