System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法技术_技高网

一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法技术

技术编号:41187204 阅读:3 留言:0更新日期:2024-05-07 22:19
本发明专利技术公开了一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,主要涉及信息检索技术领域;包括步骤:S1、构建主题爬虫的链接综合优先度评价模型以及基于位置权重的改进贝叶斯分类器;S2、给定分类器各个分类的主题,构造主题特征权重向量,然后将种子链接添加到等待队列中,并初始化参数;S3、如果等待队列不为空,且爬虫爬取到的网页数量小于设定值,则从等待队列中挑选种子链接;反之,算法停止;S4、下载步骤S3中的种子链接所指向的网页,并且令爬虫爬取到的网页数量值+1;本发明专利技术通过将分类器与隧道穿越技术相结合,不仅提高了分类器的准确性,而且可以访问更多与主题相关的网页,能够提升抓取到的网页质量。

【技术实现步骤摘要】

本专利技术涉及信息检索,具体是一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法


技术介绍

1、目前,如何从拥有海量数据的互联网中爬取到特定主题的网页信息成为一个亟需解决的问题,传统的搜索方法是通过输入关键词等方式进行搜索,这种搜索方式简便,但是在搜索结果中往往包含大量垃圾网页,原因在于搜索引擎的算法无法针对目标主题进行个性化搜索。爬虫作为一种自动化工具,能够以更高效的方式在互联网中进行信息爬取,为用户提供更加准确的结果,以爬虫为基础开发了网络爬虫工具,如webcollector,crawler4j,scrapy等,但是这种爬虫工具仍然存在准确性低的问题。

2、为了针对特定用户的个性化需求,主题爬虫(focused crawler,fc)应运而生,主题爬虫在执行爬取任务时,明确地聚焦于特定主题领域,通过采用多种评估指标对链接的优先度进行评价和筛选,这种方法使其能够有针对性地获取特定领域的知识,并从海量信息中提取与用户需求高度相关的内容,根据不同的实现原理,fc可分为:基于启发式策略的主题爬虫、基于语义分析的主题爬虫、基于机器学习的主题爬虫,但现有的主题爬虫往往难以避免主题漂移和穿越隧道这两个关键难点,算法的性能往往会影响主题爬虫的结果,进而影响抓取到的网页质量。


技术实现思路

1、本专利技术的目的在于解决现有技术中存在的问题,提供一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,通过将分类器与隧道穿越技术相结合,不仅提高了分类器的准确性,而且可以访问更多与主题相关的网页,能够提升抓取到的网页质量。

2、本专利技术为实现上述目的,通过以下技术方案实现:

3、一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,包括步骤:

4、s1、构建主题爬虫的链接综合优先度评价模型以及基于位置权重的改进贝叶斯分类器;

5、构建链接综合优先度评价模型的链接综合优先度的计算公式为:

6、e(l)=α×r(p)+β×r(al)+γ×r(cl)

7、其中,e(l)为链接综合优先度,r(p)为网页内容主体相关度,r(al)为锚文本主题相关度,r(cl)为链接上下文主题相关度,α、β和γ为权重系数且满足α+β+γ=1;

8、基于位置权重的改进贝叶斯分类器的计算公式为:

9、

10、其中,a为大于1的底数,ci是第i个类别,p(ci)是类先验概率,p(wk|ci)是类条件概率,为类条件概率的偏差,lj为位置标签权值;

11、s2、给定分类器各个分类的主题,构造主题特征权重向量,然后将种子链接添加到等待队列中,并初始化参数;

12、s3、如果等待队列不为空,且爬虫爬取到的网页数量小于设定值,则从等待队列中挑选种子链接;反之,则输出下载的网页,算法停止;

13、s4、下载步骤s3中的种子链接所指向的网页,并且令爬虫爬取到的网页数量值+1;

14、s5、获取步骤s4中所下载的网页的特征向量,执行基于位置权重的改进贝叶斯分类器,将网页分类为c(p);

15、s6、判断c(p)是否等同于目标主题,若c(p)等同于目标主题,则计算网页内容主体相关度;反之,则舍弃链接,返回至步骤s3;

16、s7、判断步骤s6中的网页内容主体相关度是否大于设定阈值,若网页内容主体相关度大于设定阈值,则在将爬取到的主题相关网页数量值+1后进入步骤s9;反之,则进入步骤s8;

17、s8、通过<div>标签将网页分割成多个内容块,然后计算每个内容块的主题相关度r(b),当r(b)超过预定义的阈值λ时,则获取该内容块中的链接,访问该链接所指向的所有网页,内容块的主题相关度r(b)的计算公式为:

18、

19、其中,b表示内容块,wb表示内容块的特征权重向量,表示第i个主题词的权重;

20、s9、抽取网页中所有的子链接;

21、s10、计算步骤s9中每个子链接的链接综合优先度,若某个子链接的链接综合优先度大于设定的链接综合优先度,则添加该子链接到等待队列中;反之则放弃该子链接;

22、s11、返回步骤s3。

23、优选的,步骤s1中:

24、

25、其中,dk为网页文本特征向量,wdk为网页特征权重向量,t为主题特征向量,wt为主题特征权重向量,为第i个主题词在文档中的权重,表示训练集中特征词ti的权重。

26、优选的,步骤s1中:

27、

28、其中,al为锚文本特征向量,wal为锚文本特征权重向量,为第i个主题词在文档中的权重;

29、优选的,步骤s1中:

30、

31、其中,cl为链接上下文特征向量,wcl为链接上下文特征权重向量,为第i个主题词在文档中的权重。

32、优选的,步骤s2在构造主题特征权重向量时,首先对数据集上的数据进行预处理,然后采用tf-idf方法获取每个特征词在数据集中的权值,最后利用这些权值构建主题特征权重向量。

33、优选的,步骤s8中:使用tf-idf方法计算在内容块中主题词的权重,得到其特征权重向量计算第i个主题词的权重的公式如下:

34、

35、其中,tfi为当前内容块中第i个特征词的归一化词频,idfi为该特征词的逆文档频率,fi为该特征词的词频,n为当前网页上的内容块数,ni为第i个特征词出现的块数。

36、对比现有技术,本专利技术的有益效果在于:

37、1、本专利技术通过将链接综合优先度评价方法与cbs技术集成到权重贝叶斯主题爬虫中,提出了一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法(bayesian crawler with weighting combined link priority evaluation andcontent block segmentation,bcw_cc),通过将分类器与隧道穿越技术相结合,不仅提高了分类器的准确性,而且可以访问更多与主题相关的网页。

38、2、在链接主题相关度评价上,传统方法通常只考虑链接网络结构或链接所在网页文本的主题相关度,本专利技术综合考虑链接指向网页的主题相关度、链接的锚文本主题相关度以及链接上下文的主题相关度,采用链接综合优先度评价方法,从而决定主题爬虫过程中待访问链接的排序。

39、3、在主题爬虫中,分类器常用于对网页整体进行分类,但受训练数据集的影响往往导致网页分类准确性较低。由于网页相对于普通文本来说,有着特殊的标签结构,因此本专利技术基于网页的标签结构,采用基于位置权重的改进贝叶斯分类器,给不同的特征词添加权重系数,从而提高网页分类的准确性。

40、4、目前主题爬虫隧道穿越的缺陷主要是对复杂、多层次网页结构的理解能力有限,难以准确抽取深层次信息,在处理复杂页本文档来自技高网...

【技术保护点】

1.一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,包括步骤:

2.根据权利要求1中的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤S1中:

3.根据权利要求1中的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤S1中:

4.根据权利要求1中的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤S1中:

5.根据权利要求1所述的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤S2在构造主题特征权重向量时,首先对数据集上的数据进行预处理,然后采用TF-IDF方法获取每个特征词在数据集中的权值,最后利用这些权值构建主题特征权重向量。

6.根据权利要求1所述的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤S8中:使用TF-IDF方法计算在内容块中主题词的权重,得到其特征权重向量计算第i个主题词的权重的公式如下:

【技术特征摘要】

1.一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,包括步骤:

2.根据权利要求1中的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤s1中:

3.根据权利要求1中的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤s1中:

4.根据权利要求1中的一种基于链接综合优先度评价和内容块分割的权重贝叶斯主题爬虫方法,其特征在于,步骤s1中:

5.根...

【专利技术属性】
技术研发人员:刘景发武永闯
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1