一种面向领域的网络信息搜索方法技术

技术编号:8594046 阅读:144 留言:0更新日期:2013-04-18 07:15
本发明专利技术提供了一种面向领域的网络信息搜索方法,可以将数据信息统一在同一平台,搜索多数据源的信息,支持多种数据格式,包括结构化、半结构化和非结构化数据。该网络信息采集方法步骤如下:领域专家指定领域网站集,同时根据领域特点提出关键词,建立领域关键词库;根据链接和内容分析编写信息采集策略,然后在领域网站采集目标网页;将采集的网页信息进行抽取过滤分类,并建立数据库,根据倒排索引进行信息存储。具体操作包含以下三个模块:网页采集蜘蛛模块,分类器训练模块和数据索引模块。本发明专利技术具有较高的适应性和主题相关性,以此为核心的垂直搜索引擎具有较高的查全率和查准率。

【技术实现步骤摘要】

本专利技术是,涉及到主题爬虫采集策略改进和网页内容抽取分类等相关技术。
技术介绍
随着网页信息迅速的增长,目前网页总量已经超过35亿,并且每天以一百万速度在增加,这就会造成通用搜索引擎索引的网页信息时效性差,很难满足不同专业用户的需求,Internet的迅速发展对WEB信息的搜索提出了巨大的挑战。所以面对领域的垂直搜索引擎就应运而生。基于主题网络爬虫的搜索引擎(即第4代搜索引擎)已经成为当前搜索引擎的热点研究方向。垂直搜索引擎专注某一特定的领域,使信息处理量大大降低,可以让搜索引擎在实时处理、主题识别过滤,主题搜索方面有着强大的功能。相对于通用搜索引擎强调“大而广”的覆盖面,主题搜索的目标是尽力做到“专、精、深”。但是面向某一领域的网页信息还是大量的,不可能全部都获取.即使可以全部获取,按照调查表明,用户也不会全部浏览,这就需要一定的抓取策略和有效地分类尽可能抓取重要性高的网页,并方便的提供给用户检索。同时,因为不同的领域数据结构也有很大的差异性,所以在具体设计领域的网络信息搜索方法时应该具有针对性,更好的符合领域的特点。
技术实现思路
本专利技术的目的是根据现有的网络发展现状,提出了,通过对链接和内容分析编写蜘蛛采集策略提高主题相关性,并将采集的网页进行内容抽取并分类,建立索引存储在数据库中,为将来的用户检索提供领域数据源。为了实现上述的目的,本专利技术的技术方案如下本专利技术提出的面向领域的网络信息搜索方法步骤是首先咨询领域专家的意见,归纳总结出领域网站集合,然后通过网络蜘蛛收集一些典型的网页构成训练文档集合,通过上述领域网站集人工识别出相关性和非相关性,利用机器学习的方法根据领域特点,结合专家意见建立能够充分代表领域特点的语料库,在训练集合上建模得到网页自动分类器,编写网络信息采集策略,通过链接和内容的分析指导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取抽取网页的领域相关信息,并建立倒排索引存放到数据库中。具体步骤包括了三大模块网页采集蜘蛛模块,分类器训练模块和数据索引模块,流程见附图说明图1:上述网页采集蜘蛛模块和数据库数据索引模块的功能是得到领域相关性高的网页内容,并建立倒排索引表存放到数据库中,为将来的用户检索提供领域知识源,相应的流程见图2:具体步骤如下(I)把领域专家提供的网站集作为蜘蛛搜索的起始网页,并存放到初始爬行队列中;蜘蛛读取初始URL,然后开始采集网页,并抽取其中新的URL存放到队列中,根据蜘蛛设定的采集深度循环采集,直到触发停止条件或者达到深度要求停止采集;(2)采集条件的设定主要是通过搜索策略算法,根据链接分析和内容分析双重约束条件设定来增加相关性;在蜘蛛采集网页时,首先根据链接分析进行预测,判定PAGERANK值高低,值高的网页具有更高的优先权,优先下载这类的网页;具体的参数说明如下u是被研究的网页,Vi是链接u的网页,是网页V向外链接的网页个数,r是没有直接链接u的网页,但是它有可能指向图中的任何的一个网页,共N个,所以其贡献度为PR (r)/N,d是阻尼系数(O < d < I,合理的取值是O. 75 O. 9,文献中经常使用的是O. 85)。网页u的PR值可以由链接到它的网页的PageRank值和Web图中汇点的PageRank值表示,公式如下本文档来自技高网...

【技术保护点】
一种面向领域的网络信息搜索方法,其特征在于:首先咨询领域专家的意见,归纳总结领域网站集;再通过网络蜘蛛收集一些典型的网页构成训练文档集合,通过上述领域网站集人工识别出相关性和非相关性;然后根据专家意见建立能够充分代表该领域的名词库,根据领域名词库定义,利用网页分析器获取网页中该领域的相关信息;接着根据领域特点并利用机器学习的方法,在训练集合上建模得到网页自动分类器;再接着编写网络信息采集策略,通过链接和内容的分析指导蜘蛛采集充足的领域相关性高的目标网页,并利用分类器进行判别分类;最后将抽取出来的领域信息存放到数据库中,为将来用户检索提供领域数据源;具体步骤包括了三大模块:网页采集蜘蛛模块,分类器训练模块和数据索引模块。

【技术特征摘要】
1.一种面向领域的网络信息搜索方法,其特征在于首先咨询领域专家的意见,归纳总结领域网站集;再通过网络蜘蛛收集一些典型的网页构成训练文档集合,通过上述领域网站集人工识别出相关性和非相关性;然后根据专家意见建立能够充分代表该领域的名词库,根据领域名词库定义,利用网页分析器获取网页中该领域的相关信息;接着根据领域特点并利用机器学习的方法,在训练集合上建模得到网页自动分类器;再接着编写网络信息采集策略,通过链接和内容的分析指导蜘蛛采集充足的领域相关性高的目标网页,并利用分类器进行判别分类;最后将抽取出来的领域信息存放到数据库中,为将来用户检索提供领域数据源;具体步骤包括了三大模块网页采集蜘蛛模块,分类器训练模块和数据索引模块。2.根据权利要求1所述的面向领域的网络信息搜索方法,其特征在于所述的分类器训练模块功能可以得到自动判别采集来的网页的领域主题相关性,具体步骤如下(1)根据领域网站集,通过蜘蛛从中采集一些网页作为训练网页,同时也采集一定数量的有代表性的网页作为测试网页;(2)采用人工标注方式,标注领域相关性的和非相关性的网页;(3)对网页进行预处理,根据DOM模型抽取的网页内容信息,采用TF/IDF算法计算特征项权重,来获取更高的领域相关度,建立向量空间模型进行文本表示;具体操作包括采用 GBK网页编码方式,利用URL判重器去除以前出现的URL,消除HTML代码中的不规范标记, 噪声过滤和除去网页上非相关内容,然后进行中文分词,根据建立的停用词表去除停用词, 并建立文档向量;(4)抽取的关键词作为特征项,并生成属性集,合并训练集中所有网页的关键词生成属性集,该属性集包含训练集中所有网页的关键词,并且去除了其中重复的,然后利...

【专利技术属性】
技术研发人员:张健冯飞胡亮齐林张小栓徐晓莉邢晓辉魏宗洋王楠甘露刘菁
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1