【技术实现步骤摘要】
本专利技术涉及一种信息采集技术,具体的说,涉及一种面向主题的信息采集方法和系统。
技术介绍
搜索引擎(Search Engine)的诞生,使得检索信息的能力获得了极大的提高。尽管搜索引擎得到了飞速的发展和广泛的应用,当前的搜索引擎仍然无法完全满足用户的需求,在检索结果的准确性、覆盖率、时效性等方面都还存在不足,搜索引擎依然面临巨大的技术挑战。通用搜索引擎为用户提供不限定主题、内容广泛的信息搜索服务,为了保证检索内容的覆盖率,搜索引擎希望能够索引尽可能多的内容。同时为了保证检索结果的时效性,需要尽可能减少索引库与数据源网站数据同步的延时。在通用搜索引擎面临上述难以解决的问题时,面向主题的搜索引擎(又称为垂直搜索引擎)受到人们越来越多的关注。如面向BBS、面向视频内容、面向科技文献等各种针对特定领域、特定主题、特定网站类型的搜索引擎。面向主题的搜索引擎只对特定网站或特定主题的网页进行索引,从信息采集的角度,面向主题的搜索引擎需要过滤与本主题无关的内容,从而减少了网页采集和分析的数据规模。面向主题的搜索引擎可以利用领域知识和特点,通过具有特色的采集调度和内容抽取技术,实现比通用搜索引擎获取网页更高的效率,并提高信息抽取的质量。现有技术中的面向主题的搜索引擎主要由网页采集、网页信息抽取、索引、检索等模块组成。其中网页采集抽取是搜索引擎的数据来源和基础。面向主题的网页采集方法的一般步骤分为:1)设定采集种子网页,并提取该网页中出现的新链接,作为待采集的网页;2)采集网页;3)对采集到的网页进行分析,判断网页是否与主题相关,并且提取出该网页中出现的新链接,作为待采集 ...
【技术保护点】
一种面向主题的信息采集方法,包括下列步骤: 1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中; 2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1)和2)直至采集结束。
【技术特征摘要】
1.一种面向主题的信息采集方法,包括下列步骤:1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1)和2)直至采集结束。2.根据权利要求1所述的方法,其特征在于,所述步骤1)中的所述提取所述页面的相关链接集合包括下列步骤:11)根据所述页面内容,构建所述页面的DOM树;12)提取所述DOM树的极大并列子树族,由所述极大并列子...
【专利技术属性】
技术研发人员:李佳文,张勇东,郭俊波,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。