当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于增量贝叶斯算法的主题爬虫方法技术

技术编号:19263495 阅读:56 留言:0更新日期:2018-10-27 02:23
一种基于增量贝叶斯算法的主题爬虫方法,使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤:输入初始训练集和增量训练集;对初始训练集和增量训练集进行分词等预处理;根据初始训练集和朴素贝叶斯原理训练出初始分类器,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;初始化优先级队列、已访问链接集合、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;根据网页链接是否含有主题关键词,如果含有,则对增量贝叶斯分类模型进行更新。每次选择优先级队列中优先级最高的网页进行网页下载,重复上述步骤直到满足条件。

A focused crawler method based on incremental Bayes algorithm

A topic crawler method based on incremental Bayesian algorithm is proposed. The steps of training Bayesian classifier with incremental learning idea are used. The steps of online topic crawler based on incremental Bayesian algorithm are as follows: input initial training set and incremental training set; pre-process initial training set and incremental training set by word segmentation; and according to the initial step. Initial classifier is trained by training set and naive Bayesian principle. For the data in incremental training set, the samples are classified by initial classifier, and the classification model is updated according to the classification results. Priority queue, visited link set, incremental Bayesian classifier are initialized, and the initial web page links are added. In the priority queue, the incremental Bayesian classification model is updated according to whether the page links contain topic keywords or not. Each time you select the page with the highest priority in the priority queue to download the page, repeat the above steps until the conditions are met.

【技术实现步骤摘要】
一种基于增量贝叶斯算法的主题爬虫方法
本专利技术涉及一种基于增量贝叶斯算法的主题爬虫技术,特别适用于实时增量爬取网页的应用场景
技术介绍
网络的庞大性以及复杂性导致网页信息的获取面临着诸多挑战,传统网络爬虫是按照一定的规则,自动地抓取万维网信息的程序或者脚本,从初始网页链接逐渐向整个互联网扩散,主要目的是在一定的时间内获得大量的互联网数据。在当前网络信息规模呈现指数增长的背景下,传统网络爬虫的使用受到信息采集速度、价值密度、专业程度的限制,返回网页通常伴随着很多无价值信息,无法满足用户的智能化需求。目前的主题爬虫技术,在计算链接的优先级时,往往是通过锚文本与网页文本的相关度加权得出,此外在分类算法计算文本与主题之间的相关度时,忽略了随着时间推移,原有网页样本空间的分布会有所改变,如果使用不变的分类模型来计算相关度,会使得计算结果有很大的误差,不适用于实际中新数据源源不断到来的场景。
技术实现思路
本专利技术所要解决的技术问题是,针对上述问题,本专利技术提供了一种基于增量贝叶斯算法的主题爬虫:使用增量贝叶斯分类模型计算文本与主题之间的相关度,并根据链接相关信息对增量贝叶斯分类模型进行优化与本文档来自技高网...

【技术保护点】
1.一种基于增量贝叶斯算法的主题爬虫方法,其特征在于:使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤,所述使用增量学习思想训练贝叶斯分类器的具体步骤为:步骤100,输入初始训练集和增量训练集;步骤101,对初始训练集和增量训练集进行分词等预处理;步骤102,根据初始训练集和朴素贝叶斯原理训练出初始分类器,初始分类器主要包含类先验概率p(ci)和特征的类条件概率p(wk|ci),分类模型公式为:

【技术特征摘要】
1.一种基于增量贝叶斯算法的主题爬虫方法,其特征在于:使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤,所述使用增量学习思想训练贝叶斯分类器的具体步骤为:步骤100,输入初始训练集和增量训练集;步骤101,对初始训练集和增量训练集进行分词等预处理;步骤102,根据初始训练集和朴素贝叶斯原理训练出初始分类器,初始分类器主要包含类先验概率p(ci)和特征的类条件概率p(wk|ci),分类模型公式为:其中,wk为样本的第k个特征,ci为第i个类别步骤103,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;步骤104,如果分类结果正确,则类先验概率p(ci)的更新公式为:特征的类条件概率p(wk|ci)的更新公式为其中,N为所有文档总数,Ni为类别为ci的文档总数,wk为测试样本的第k个特征,dt为测试样本,ct为初始分类器预测的类别;步骤105,如果分类错误,则保持类先验概率不变,特征的类条件概率p(wk|ci)的更新公式为步骤106,输出并保存模型至主题爬虫的存储系统;基于增量贝叶斯算法进行在线主题爬虫的具体步骤为:步骤200,给定初始网页链接、待爬取主题和主题关键词;步骤201,初始化优先级队列PriorityQueue、已访问链接集合VisitedList、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;步骤202,取PriorityQueue队列中优先级最高的链接,下载网页的同时将链接加入到VisitedList集合中;步骤203,从网页中提取标题、内容、发布时间信息,并存入数据库中;步骤204,提取网页中包含的超...

【专利技术属性】
技术研发人员:张雷王姗姗许磊吴和生陆恒杨
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1