基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法技术

技术编号：15294496 阅读：95 留言：0更新日期：2017-05-11 11:20

本发明专利技术公开了一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，属于网页搜索引擎技术领域，本发明专利技术是针对网页中动态变化的主题词垂直搜索引擎中的网页识别方法研究，主要研究如何判断一个动态变化的网页是否与主题词相关，通过计算页面的主题词关联度，筛出与综合主题词关联度较大的URL进入待爬行队列，利用垂直搜索和聚焦爬虫技术获得网页的分类信息，设计了网页分类识别模型和算法，通过对动态变化的网页识别，获得不同分类的URL，为用户对提供网页的精准搜索，也能给出未知的URL所属网页分类。本发明专利技术对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。

Web page classification and recognition method based on integrated topic word vertical search and focused crawler

The invention discloses a web page classification and recognition method of comprehensive thesaurus based on vertical search and focused crawler, which belongs to the web search engine technology in the field, the invention is the study of \subject word recognition method of vertical search engine for dynamic changes in the page, whether the main research how to determine a dynamic web page associated with the topic word the theme of the page, by calculating the degree of association, screening and comprehensive subject words associated with larger URL crawling into the queue, the classification information obtained by vertical web search and focused crawler technology, web page classification model and algorithm design, through the\ identification of dynamic change, different classification URL, for users to provide accurate search \, also can give the unknown URL the web page classification. The invention has very wide significance and high application value for the classification and recognition of dynamic web pages.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网页搜索引擎
，具体的涉及一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法。
技术介绍
随着垂直搜索引擎的日益流行，作为垂直搜索引擎的关键技术—聚焦爬虫也显得越来越重要。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择地访问万维网上的网页与相关的链接，获取所需要的信息；爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。随着互联网的快速增长，网络上的信息量也在呈爆炸性的呈现，人们特别关注如何在海量的信息中获取有效的信息，通用搜索引擎给人们提供了很多的便利，但无法满足个性化、多样化和精确化的需求，所以垂直搜索的出现受到了普遍关注，它搜索某一个特定行业或者主题的信息，针对性和目的性更强；通过主题词来提供语义信息查询，能满足特定用户的特殊需求；它更加专业，返回的结果也更具有针对性，使用很少的服务器资源可以覆盖某一特定行业、主题的数据。而聚焦爬虫作为垂直搜索的核心构件，根据指定的主题词访问互联网上相关的网页与链接，抓取需要的信息。基本的垂直搜索和聚焦爬虫的网页分类识别方法包括下列步骤：(1)输入待查询综合主题词；(2)创建爬虫；(3)读取预设网址导航站点的URL列表；(4)判断URL列表是否为空，若为空，则转步骤(8)；(5)取出一个站点URL，将其放入未访问的URL列表(UVURL列表)中；(6)判断UVURL列表是否为空，若为空，则转步骤(3)；(7)从UVURL列表中取出一个URL，根据表VURL判断此URL是否被访问过，若是，则转步骤(6)；(8)对取得的URL进行网页源...

【技术保护点】
一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，创建爬虫后，通过页面内容分析算法得到网址搜索表Search，具体步骤如下：(1)利用聚焦爬虫技术获取网页的源文件；(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征，若不匹配，则转步骤(9)；(3)利用正则表达式抽取网页的结构化信息；(4)调用综合主题词关联度计算方法，得到该页面的综合主题词关联度值，所述综合主题词关联度计算方法的具体步骤为：①构建M个主题词的综合权重向量q＝(q1,q2,...,qM),其中qi表示第i个主题词在查询表达式中的权值；②获取待提取特征项页面；③页面中单词词干提取：提取文本的分词做过滤处理，过滤掉抽象的或对检索无关的单词，并去除无关的前缀和后缀；④计算提取出来的单词的词频度；⑤过滤掉词频度小于设定阀值T的特征项，选取n个特征项构成页面特征项库,设为p＝(p1,p2,…,pn)；⑥若特征库中的特征项位于<title>标签中，设r＝5.0,若特征项在<meta>中，设r＝3.0,若特征项在<a>中，设r＝2.0,其他情况下设r＝1.0。构成特征项权...

【技术特征摘要】
1.一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，创建爬虫后，通过页面内容分析算法得到网址搜索表Search，具体步骤如下：(1)利用聚焦爬虫技术获取网页的源文件；(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征，若不匹配，则转步骤(9)；(3)利用正则表达式抽取网页的结构化信息；(4)调用综合主题词关联度计算方法，得到该页面的综合主题词关联度值，所述综合主题词关联度计算方法的具体步骤为：①构建M个主题词的综合权重向量q＝(q1,q2,...,qM),其中qi表示第i个主题词在查询表达式中的权值；②获取待提取特征项页面；③页面中单词词干提取：提取文本的分词做过滤处理，过滤掉抽象的或对检索无关的单词，并去除无关的前缀和后缀；④计算提取出来的单词的词频度；⑤过滤掉词频度小于设定阀值T的特征项，选取n个特征项构成页面特征项库,设为p＝(p1,p2,…,pn)；⑥若特征库中的特征项位于<title>标签中，设r＝5.0,若特征项在<meta>中，设r＝3.0,若特征项在<a>中，设r＝2.0,其他情况下设r＝1.0。构成特征项权重向量集合r＝(r1，r2，…，rn)；⑦对M个主题词依次在页面特征项库中查找其对应的pi，若在特征项库中未找到，则记为0，构成的向量为p′＝(p1′,p2′,…,pn′)；⑧计算该页面中的综合主题词关联度R，其公式如下：R=Σi=1MPi*p′i*ri]]>(5)读取页面的综合主题词关联度R，并...

【专利技术属性】
技术研发人员：掌明，卢艳宏，杨瑞，樊纪山，王经卓，宋永献，孙巧榆，张金学，洪露，
申请(专利权)人：淮海工学院，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人