当前位置: 首页 > 专利查询>淮海工学院专利>正文

基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法技术

技术编号:15294496 阅读:95 留言:0更新日期:2017-05-11 11:20
本发明专利技术公开了一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,属于网页搜索引擎技术领域,本发明专利技术是针对网页中动态变化的主题词垂直搜索引擎中的网页识别方法研究,主要研究如何判断一个动态变化的网页是否与主题词相关,通过计算页面的主题词关联度,筛出与综合主题词关联度较大的URL进入待爬行队列,利用垂直搜索和聚焦爬虫技术获得网页的分类信息,设计了网页分类识别模型和算法,通过对动态变化的网页识别,获得不同分类的URL,为用户对提供网页的精准搜索,也能给出未知的URL所属网页分类。本发明专利技术对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。

Web page classification and recognition method based on integrated topic word vertical search and focused crawler

The invention discloses a web page classification and recognition method of comprehensive thesaurus based on vertical search and focused crawler, which belongs to the web search engine technology in the field, the invention is the study of \subject word recognition method of vertical search engine for dynamic changes in the page, whether the main research how to determine a dynamic web page associated with the topic word the theme of the page, by calculating the degree of association, screening and comprehensive subject words associated with larger URL crawling into the queue, the classification information obtained by vertical web search and focused crawler technology, web page classification model and algorithm design, through the\ identification of dynamic change, different classification URL, for users to provide accurate search \, also can give the unknown URL the web page classification. The invention has very wide significance and high application value for the classification and recognition of dynamic web pages.

【技术实现步骤摘要】

本专利技术涉及网页搜索引擎
,具体的涉及一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
技术介绍
随着垂直搜索引擎的日益流行,作为垂直搜索引擎的关键技术—聚焦爬虫也显得越来越重要。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息;爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。随着互联网的快速增长,网络上的信息量也在呈爆炸性的呈现,人们特别关注如何在海量的信息中获取有效的信息,通用搜索引擎给人们提供了很多的便利,但无法满足个性化、多样化和精确化的需求,所以垂直搜索的出现受到了普遍关注,它搜索某一个特定行业或者主题的信息,针对性和目的性更强;通过主题词来提供语义信息查询,能满足特定用户的特殊需求;它更加专业,返回的结果也更具有针对性,使用很少的服务器资源可以覆盖某一特定行业、主题的数据。而聚焦爬虫作为垂直搜索的核心构件,根据指定的主题词访问互联网上相关的网页与链接,抓取需要的信息。基本的垂直搜索和聚焦爬虫的网页分类识别方法包括下列步骤:(1)输入待查询综合主题词;(2)创建爬虫;(3)读取预设网址导航站点的URL列表;(4)判断URL列表是否为空,若为空,则转步骤(8);(5)取出一个站点URL,将其放入未访问的URL列表(UVURL列表)中;(6)判断UVURL列表是否为空,若为空,则转步骤(3);(7)从UVURL列表中取出一个URL,根据表VURL判断此URL是否被访问过,若是,则转步骤(6);(8)对取得的URL进行网页源码获取,利用垂直搜索技术和聚焦爬虫技术对网页内容解析,获取此站点下的网页类别信息及各个类别中对应的网址信息;(9)将网页类别信息及各个类别中对应的网址信息加入到Category列表中;(10)从表UVURL中删除URL,并将其添加到VURL中,转步骤(6);(11)结束。该方法存在一定的难度,有如下原因:聚焦爬虫很难从待爬行URL队列中选出与主题信息关系密切的爬行队列;网络爬虫在URL提取过程中,采用深度、宽度等搜索策略,容易产生“维数灾”问题;现有的很多开源爬虫系统从抓取的网页中获取结构化信息的功能较弱;现有的聚焦爬虫策略很难适应网页的内容和结构的动态变化。综上所述,传统的聚焦爬虫技术不同类别的网页识别率较低,必须另辟蹊径。
技术实现思路
1.要解决的技术问题本专利技术要解决的技术问题在于提供一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,通过对基于综合主题词的垂直搜索和聚焦爬虫技术研究,我们能够较好的解决下列问题:(1)利用超链接价值和综合主题词相关性价值构建待爬行URL队列。(2)能够根据用户特定的综合主题词的特殊搜索得到具有针对性的精准搜索结果。(3)通过综合主题词垂直搜索和聚焦爬虫获取未知URL所属的网页类别。2.技术方案为解决上述问题,本专利技术采取如下技术方案:通过对网站观察和分析发现如下规律:网站基本上由目录页面和内容页面组成,目录页面包含许多指向各种不同内容页面的链接,而内容页面则包括属于该页面内容的网站链接。属于同一类别的页面之间有着很强的相似性,即有相似的结构,可以通过正则表达式来获取页面的结构化信息。为了适应网页内容不定期的变化,更好的抽取页面特征的网页结构化信息,引入了URL正则表达式学习器来适应网页的动态变化和解决主题词孤岛问题,需要同时获取与主题词相关页面的URL正则表达式、与主题词相关的目录页面的正则表达式,只抓取和这两类正则表达式匹配的URL。与此同时本专利技术提出了基于综合主题词的定向深度优先搜索策略。一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,包括如下步骤:(1)输入待查询综合主题词;(2)创建爬虫;(3)调用页面内容分析算法;(4)读取网址搜索表Search;(5)判断网址搜索表Search是否为空,若为空则转步骤(15);(6)取出Search表中第一个URL,将其放入UVURL列表中;(7)删除Search表中的第一个URL;(8)判断UVURL列表是否为空,若为空则转步骤(4);(9)若UVURL列表不为空,则从UVURL列表中取出一个URL;(10)根据表VURL判断此URL是否被访问过,若是,则转步骤(8);(11)若上述URL未被访问过,则获取该URL对应的网页源码;(12)利用分布式垂直搜索和聚焦爬虫技术对网页内容解析,获取该URL的网页类别信息及对应的网址信息;(13)将网页类别信息及对应的网址信息加入到Category列表中;(14)从表UVURL中删除URL,并将其添加到VURL中,转步骤(8);(15)结束。进一步地,步骤(3)中所述页面内容分析算法为:通过主题词关联度的计算,获取和综合主题词关联度最大的N个页面,通过垂直搜索和聚焦爬虫来准确识别页面的类别和对应的网址信息,具体步骤如下:1)利用聚焦爬虫技术获取网页的源文件;2)判断该网页是否同时匹配URL正则表达式定时学习器获取的与综合主题词相关页面的内容页面的正则表达式、与综合主题词相关页面的目录页面的正则表达式,若不匹配,则转步骤9);3)利用正则表达式抽取网页的结构化信息;4)调用综合主题词关联度计算方法,得到该页面的综合主题词关联度值;5)读取页面的综合主题词关联度R,并判断是否大于设定的阀值α,若不是,则放弃该页面,转步骤1);6)若该页面的综合主题词关联度R大于设定的阀值α,则把该页面的综合主题词关联度R值填入关联表Relevance中;7)利用正则表达式从该页面的结构化信息中提取出新链接;8)把该将新链填写到对应的Relevance表中,并按照Relevance值的降序方式排序;9)判断Relevance表是否为空,若为空,则转步骤13);10)取出Relevance表的第一个URL,判断此URL是否满足搜索策略,若不满足,则转向步骤9);11)将满足搜索策略的URL加入到网址搜索表Search中,同时删除Relevance表中的第一个URL;12)转向步骤1);13)结束。更进一步地,步骤4)中所述的综合主题词关联度计算方法为:通过综合主题词的不同权重值体现待搜索页面的主题词的紧密度,按照词频度构建页面特征项库,并根据每个特征项处于页面的不同位置设置不同的权重来获得页面与综合主题词的关联度,具体步骤如下:①构建M个主题词的综合权重向量q=(q1,q2,...,qM),其中qi表示第i个主题词在查询表达式中的权值;②获取待提取特征项页面;③页面中单词词干提取:提取文本的分词做过滤处理--过滤掉抽象的或对检索无关的单词,并去除无关的前缀和后缀;④计算提取出来的单词的词频度;⑤过滤掉词频度小于设定阀值T的特征项,选取n个特征项构成页面特征项库(若页面中词频度大于T的特征项个数大于n,则按词频度从大到小选取n个特征项,若页面中词频度大于T的特征项个数小于n,则不足的词频度特征项全部为0),设为p=(p1,p2,…,pn);⑥若特征库中的特征项位于<title>标签中,设r=5.0,若特征项在<meta>中,设r=3.0,若特征项在<a>中,设r=2.0,其他情况下设r=1.0。构成本文档来自技高网
...

【技术保护点】
一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,其特征在于,创建爬虫后,通过页面内容分析算法得到网址搜索表Search,具体步骤如下:(1)利用聚焦爬虫技术获取网页的源文件;(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征,若不匹配,则转步骤(9);(3)利用正则表达式抽取网页的结构化信息;(4)调用综合主题词关联度计算方法,得到该页面的综合主题词关联度值,所述综合主题词关联度计算方法的具体步骤为:①构建M个主题词的综合权重向量q=(q1,q2,...,qM),其中qi表示第i个主题词在查询表达式中的权值;②获取待提取特征项页面;③页面中单词词干提取:提取文本的分词做过滤处理,过滤掉抽象的或对检索无关的单词,并去除无关的前缀和后缀;④计算提取出来的单词的词频度;⑤过滤掉词频度小于设定阀值T的特征项,选取n个特征项构成页面特征项库,设为p=(p1,p2,…,pn);⑥若特征库中的特征项位于<title>标签中,设r=5.0,若特征项在<meta>中,设r=3.0,若特征项在<a>中,设r=2.0,其他情况下设r=1.0。构成特征项权重向量集合r=(r1,r2,…,rn);⑦对M个主题词依次在页面特征项库中查找其对应的pi,若在特征项库中未找到,则记为0,构成的向量为p′=(p1′,p2′,…,pn′);⑧计算该页面中的综合主题词关联度R,其公式如下:R=Σi=1MPi*p′i*ri]]>(5)读取页面的综合主题词关联度R,并判断是否大于设定的阀值α,若不是,则放弃该页面,转步骤(1);(6)若该页面的综合主题词关联度R大于设定的阀值α,则把该页面的综合主题词关联度R值填入关联表Relevance中;(7)利用正则表达式从该页面的结构化信息中提取出新链接;(8)把该将新链填写到对应的Relevance表中,并按照Relevance值的降序方式排序;(9)判断Relevance表是否为空,若为空,则转步骤(13);(10)取出Relevance表中的第一个URL,判断此URL是否满足搜索策略,若不满足,则转向步骤(9);(11)将满足搜索策略的URL加入到网址搜索表Search中,同时删除Relevance表中的第一个URL;(12)转向步骤(1);(13)结束;得到网址搜索表Search后,读取网址搜索表Search,然后进行获取与主题词关联度大的网页的URL及分类信息的工作。...

【技术特征摘要】
1.一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,其特征在于,创建爬虫后,通过页面内容分析算法得到网址搜索表Search,具体步骤如下:(1)利用聚焦爬虫技术获取网页的源文件;(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征,若不匹配,则转步骤(9);(3)利用正则表达式抽取网页的结构化信息;(4)调用综合主题词关联度计算方法,得到该页面的综合主题词关联度值,所述综合主题词关联度计算方法的具体步骤为:①构建M个主题词的综合权重向量q=(q1,q2,...,qM),其中qi表示第i个主题词在查询表达式中的权值;②获取待提取特征项页面;③页面中单词词干提取:提取文本的分词做过滤处理,过滤掉抽象的或对检索无关的单词,并去除无关的前缀和后缀;④计算提取出来的单词的词频度;⑤过滤掉词频度小于设定阀值T的特征项,选取n个特征项构成页面特征项库,设为p=(p1,p2,…,pn);⑥若特征库中的特征项位于<title>标签中,设r=5.0,若特征项在<meta>中,设r=3.0,若特征项在<a>中,设r=2.0,其他情况下设r=1.0。构成特征项权重向量集合r=(r1,r2,…,rn);⑦对M个主题词依次在页面特征项库中查找其对应的pi,若在特征项库中未找到,则记为0,构成的向量为p′=(p1′,p2′,…,pn′);⑧计算该页面中的综合主题词关联度R,其公式如下:R=Σi=1MPi*p′i*ri]]>(5)读取页面的综合主题词关联度R,并...

【专利技术属性】
技术研发人员:掌明卢艳宏杨瑞樊纪山王经卓宋永献孙巧榆张金学洪露
申请(专利权)人:淮海工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1