基于教育网络信息主题采集方法技术

技术编号:20944467 阅读:36 留言:0更新日期:2019-04-24 02:23
本发明专利技术公开了一种能够使采集到大量URL地址以及网页文本信息均与主题相关性较高,同时提高采集教育网络信息主题准确性的基于教育网络信息主题的采集方法。该基于教育网络信息主题的采集方法包括步骤采集网络页面,对页面进行分析下载,对页面信息进行提取,去除无关页面和无关URL,然后对页面和URL进行去重,将去重后网页保存到教育信息库,并且提取去重后的页面的URL,将该URL放入到采集到的URL序列中,然后供给个采集器,对网页进行重新采集。采用该基于教育网络信息主题的采集方法能够提高采集效率,提高教育网络信息主题采集有效性。

Method of collecting information subject based on Educational Network

The invention discloses a collection method based on educational network information subject, which can make a large number of URL addresses and web page text information collected highly correlated with the subject, and improve the accuracy of the subject of collecting educational network information. The collection method based on educational network information subject includes steps to collect network pages, analyze and download pages, extract page information, remove irrelevant pages and URLs, then de-duplicate the pages and URLs, save the de-duplicated pages to the educational information database, and extract the URL of the de-duplicated pages, and put the URL into the collected URL sequence, and then provide information for the users. Give a collector to re-collect the web pages. The collection method based on educational network information subject can improve the collection efficiency and the effectiveness of educational network information subject collection.

【技术实现步骤摘要】
基于教育网络信息主题采集方法
本专利技术涉及信息处理
,具体涉及一种基于教育网络信息主题的采集方法。
技术介绍
公知的:搜索引擎(SearchEngine)的诞生,使得检索信息的能力获得了极大的提高。尽管搜索引擎得到了飞速的发展和广泛的应用,当前的搜索引擎仍然无法完全满足用户的需求,在检索结果的准确性、覆盖率、时效性等方面都还存在不足,搜索引擎依然面临巨大的技术挑战。通用搜索引擎为用户提供不限定主题、内容广泛的信息搜索服务,为了保证检索内容的覆盖率,搜索引擎希望能够索引尽可能多的内容。同时为了保证检索结果的时效性,需要尽可能减少索引库与数据源网站数据同步的延时。近年来研究者不断提出新一代搜索引擎的发展方向,而主题搜索是其中尤为突出的一类。与普通搜索引擎比较,主题搜索引擎的检索范围相对较小,查准率和查全率易于保证。在搜索过程中无须对整个WEB进行遍历,只需选择与主题页面相关的页面进行访问,基本回避了传统信息采集系统信息指数膨胀的危机。现有技术中的面向主题的搜索引擎主要由网页采集、网页信息抽取、索引、检索等模块组成。其中网页采集抽取是搜索引擎的数据来源和基础。面向主题的网页采集方法本文档来自技高网...

【技术保护点】
1.基于教育网络信息主题采集方法,其特征在于,包括以下步骤:S1、首先构造主题类缓冲池positivePool、非主题类缓冲池negtivePool两类缓冲池,用来存放UR类实体,即URL地址集中的URL地址;两个缓冲池初始化值均为空集合;所述主题类缓冲池中存放与采集主题相关的URL地址,非主题类缓冲池中存放与采集主题不相关的URL地址;缓冲池的作用是存放URL地址以便采集网页的时候能快速使用,分为主题类和非主题类是为了形成主题类的URL地址集;所述缓冲池即为封装好的队列操作;S2、根据需要采集的主题人工选取种子站点,构成搜索程序Spider的初始网页集即URL地址集;S3、对Web网页的教育...

【技术特征摘要】
1.基于教育网络信息主题采集方法,其特征在于,包括以下步骤:S1、首先构造主题类缓冲池positivePool、非主题类缓冲池negtivePool两类缓冲池,用来存放UR类实体,即URL地址集中的URL地址;两个缓冲池初始化值均为空集合;所述主题类缓冲池中存放与采集主题相关的URL地址,非主题类缓冲池中存放与采集主题不相关的URL地址;缓冲池的作用是存放URL地址以便采集网页的时候能快速使用,分为主题类和非主题类是为了形成主题类的URL地址集;所述缓冲池即为封装好的队列操作;S2、根据需要采集的主题人工选取种子站点,构成搜索程序Spider的初始网页集即URL地址集;S3、对Web网页的教育网络信息主题进行Spider采集;S4、对采集到的网络页面进行解析下载;提取页面的URL地址以及文本信息;对采集到的网络页面进行与主题的相关性计算;过滤掉与主题无关的网络页面;对采集到的页面URL地址,进行相关性计算;过滤掉与主题无关的URL地址;S5、将过滤后与主题相关的页面放入到主题数据库,将与主题不相关的页面放入到非主题数据库;将采集到的与主题相关的URL地址存放到主题类缓冲池;S6、对主题数据库中的网页进行去重处理;删除主题数据库中相同的页面;并且对主题类缓冲池内的URL地址进...

【专利技术属性】
技术研发人员:陈炽昌杨帆
申请(专利权)人:全通教育集团广东股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1