一种基于网站主题词查询的建立方法及系统技术方案

技术编号:9406322 阅读:149 留言:0更新日期:2013-12-05 06:09
本发明专利技术涉及信息检索领域,提供了一种基于网站主题词查询的建立方法,包括,获取网页数据;根据网页数据统计词汇的网站间重要性;根据网页数据提取网站主题词;根据提取的网站主题词信息,建立存储资源词典;建立网站主题查询接口。本发明专利技术还提供了一种基于网站主题词查询的建立系统。采用本发明专利技术的技术方案,流程简单易实现,可快速的实现更新完善,供线下、线上使用来提升专业化搜索体验。

【技术实现步骤摘要】
一种基于网站主题词查询的建立方法及系统
本专利技术涉及信息检索领域,特别地涉及一种基于网站主题词查询的建立方法及系统。
技术介绍
随着信息技术的发展,互联网的信息越来越丰富,已经渗透到人们生活的方方面面。尤其是搜索引擎的出现,让用户可以从海量数据中快速的查找自己需要的信息。传统的搜索引擎以满足用户的需求为目的,大家共用一个搜索引擎,满足大部分人的需求就可以。作为一个大众化的网络工具,大多数的搜索引擎还很难满足特定的行业、特定的用户对特定的信息或服务的需求。因而出现了专业化搜索引擎,专注搜集与某一主题相关的重要的页面,且保证对某一领域信息的收录与及时更新。搜索引擎不应该仅仅是满足人们生活化、娱乐化信息的工具,而且还应该是满足人们更广泛、更专业需求的受益工具。如何让搜索引擎可以发挥更大的作用、更专业实用,让各行各业的人都可以使用并得到自己的所需,是搜索引擎面临的问题。垂直搜索是搜索引擎的一种,且大部分的搜索引擎都具备垂直搜索功能。垂直搜索可以看作是某类专业领域的搜索,涵盖小说、音乐、视频、图片等领域。如当用户搜索某歌曲时,直接可以获取该歌曲的信息,试听、下载等,这样直接满足了用户的检索需求,让用户愉悦。然而垂直搜索覆盖的只是一种资源型的领域,偏生活化、娱乐化领域,在这类领域可以直接满足用户具体需求。但用户的分布领域、感兴趣的专业领域不仅限于垂直资源领域。尤其是互联网资源越来越丰富多样,越来越多的职业人士,遇到问题会倾向于借助搜索引擎,检索一些工作上的,专业上的问题。但对于越来越多的专业性需求,搜索引擎显得力不从心,无法给出专业性的结果。这并非因为互联网上没有专业化的数据,而是搜索引擎对互联网数据上的分析和理解尚不足,只是抓取和检索,缺乏更多的分析、理解,需要将海量数据做数据挖掘,整理成更优质数据。让搜索引擎搜索结果更专业化,更让人信服,最重要的一条就是让自己的数据专业化。线下理解互联网数据,对自己的检索数据库里的数据类型、分布、主题等都有清晰的理解和整理。当用户检索某关键词后,计算机可以给出该关键词相关的更专业化、权威化的站点结果,让用户能真正的受益。故需要在线下对互联网数据做分析理解,提取众多网站信息,了解网站的主题。一旦知道了网站的主题,就知道了该网站的立意。当用户给出关键词信息,可以提供给用户该关键词信息对应的网站的数据。现有技术中无法提供有效的检索方案。
技术实现思路
本专利技术解决的技术问题在于提供了一种基于网站主题词查询的建立方法和系统,以更好提高搜索引擎的有效性。为解决上述问题,本专利技术提供了一种基于网站主题词查询的建立方法,包括,获取网页数据;根据网页数据统计词汇的网站间重要性;根据网页数据提取网站主题词;根据提取的网站主题词信息,建立存储资源词典;建立网站主题查询接口。上述的方法,其中,所述获取网页数据包括,获取网站所包含的网页的数据,主要包括网页的标题title和统一资源定位符url。上述的方法,其中,所述根据网页数据统计词汇的网站间重要性包括,对网页标题分词后,得到一系列的词汇,按词性过滤掉后,输出每个词汇和计算出的逆向站点频率ISF值作为重要性的度量。上述的方法,其中,所述逆向站点频率ISF值的公式定义为,其中,n表示含词汇Tj的网站数目;N为所有网站的数目。上述的方法,其中,所述提取网站主题词包括,将网页的标题分词后,得到一系列的词汇Term;将所述词汇进行词性过滤;对完成上述步骤的词汇打分,根据打分选定词汇作为网站的主题词。上述的方法,其中,所述对词汇进行打分包括,对网页的标题进行打分,所述打分公式为p_score(Tj)=index_score(Tj)*pos_score(Tj)其中,index_score(Tj)为词汇Tj的位置得分,pos_score(Tj)为词汇Tj的词性得分。其中,N为标题含有的词汇数目,dpos(Tj)为词汇Tj的词性等级;还包括对网站中词汇进行打分,其中,s_score(Tj)为某网站中词汇Tj的分数,page_num(Tj)为某网站中标题包含词汇Tj的网页的数目,page_num为该网站含有网页的数目。上述的方法,其中,所述建立存储资源词典包括,将提取的网站主题词信息,建立结构化的资源词典,包括网站到主题词的正查询模块,和/或主题词到网站的逆查询模块。上述的方法,其中,所述正查询模块以及逆查询模块包括数据区和结构区,结构区存储的是直接查询的对象,数据区存储的是结构区所共享的数据。上述的方法,其中,所述网站主题查询接口包括正向查询和逆向查询,所述正向查询为通过网站地址,查询该网站的主题词及其权值;所述逆向查询为通过主题词,查询该主题词涵盖的网站及其权值。本专利技术还提供了一种基于网站主题词查询的建立系统,包括,获取模块,用于获取网页数据;统计模块,用于根据网页数据统计词汇的网站间重要性;提取模块,用于根据网页数据提取网站主题词;建立模块,用于根据提取的网站主题词信息,建立存储资源词典;接口模块,用于建立网站主题查询接口。采用本专利技术的技术方案,基于搜索引擎自身的网页数据,统计词汇的网站间重要性,计算ISF(inversesitefrequency);基于网页关键域数据,提取重要词汇并归并出其所在网站的主题词;最终将结果存储为资源词典,并提供主题词相关的正逆查询接口,方便对网站和主题词之间的查询使用。总结本专利技术提供的方案,流程简单易实现,可快速的实现更新完善,供线下、线上使用来提升专业化搜索体验。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术第一实施例流程图;图2是本专利技术第二实施例流程图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。鉴于目前搜索引擎对互联网数据的理解、分析工作不足,本专利技术基于互联网网页数据,来提取网站的主题词,并建立一种资源词典,提供网站和主题词之间的正逆向接口,为搜索引擎提升自身的专业化结果提供一种基础。如图1所示,是本专利技术第一实施例流程图,提供了一种基于网站主题词查询的建立方法,包括,步骤S101,获取网页数据;作为一个实施例,获取网站所包含的网页的数据,主要包括网页的title(标题),和url(统一资源定位符)。搜索引擎是将用户的检索词与海量数据建立枢纽,故搜索引擎必备的两大数据源:检索日志和网页数据。检索日志可以用于分析、理解用户意图与核心需求;网页数据可以用来分析、理解自身后台数据,包括做数据挖掘、做知识库等所用。本专利技术提取网站的主题词,考虑到网站首页内容较少,不适合做内容性质的挖掘,以及搜索一般抓取的均是网页数据,故用的数据并非是网站首页的数据,而是网站所包含的网页的数据。且利用搜索引擎实际建索引库的网页数据,因为搜索引擎的建库数据是周期性更新的,故本专利技术也可以周期随之更新。网页中最重要的关键域是网页的title(标题),和url(统一资源定位符)。故用来提主题词的也主要是利用网页的这两个属性。url用于提取对应的网站站点,title则用于提取关键词汇。本文档来自技高网
...
一种基于网站主题词查询的建立方法及系统

【技术保护点】
一种基于网站主题词查询的建立方法,其特征在于,包括,获取网页数据;根据网页数据统计词汇的网站间重要性;根据网页数据提取网站主题词;根据提取的网站主题词信息,建立存储资源词典;建立网站主题查询接口。

【技术特征摘要】
1.一种基于网站主题词查询的建立方法,其特征在于,包括,获取网页数据;根据网页数据统计词汇的网站间重要性,具体包括,对网页标题分词后,得到一系列的词汇,按词性过滤掉后,输出每个词汇和计算出的逆向站点频率ISF值作为重要性的度量;根据网页数据提取网站主题词,具体包括,将网页的标题分词后,得到一系列的词汇Term;将所述词汇进行词性过滤;对完成上述步骤的词汇打分,根据打分选定词汇作为网站的主题词;所述对词汇进行打分包括,对网页的标题进行打分,所述打分公式为p_score(Tj)=index_score(Tj)*pos_score(Tj)其中,index_score(Tj)为词汇Tj的位置得分,pos_score(Tj)为词汇Tj的词性得分;其中,N为标题含有的词汇数目,dpos(Tj)为词汇Tj的词性等级;还包括对网站中词汇进行打分,其中,s_score(Tj)为某网站中词汇Tj的分数,page_num(Tj)为某网站中标题包含词汇Tj的网页的数目,page_num为该网站含有网页的数目;根据提取的网站主题词信息,建立存储资源词典;建立网站主题查询接口。2.根据权利要求1所述的方法,其特征在于,所述获取网页数据包括,获取网站所包含的网页的数据,主要包括网页的标题title和统一资源定位符url。3.根据权利要求2所述的方法,其特征在于,所述逆向站点频率ISF值的公式定义为,其中,nj表示含词汇Tj的网站数目;N为所有网站的数目。4.根据权利要求3所述的方法,其特征在于,所述建立存储资源词典包括,将提取的网站主题词信息,建立结构化的资源词典,包括网站到主题词的正查询模块,和/或主题词到网...

【专利技术属性】
技术研发人员:车天文雷大伟石志伟周步恋杨振东王喜民
申请(专利权)人:深圳市宜搜科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1