当前位置: 首页 > 专利查询>河海大学专利>正文

基于云平台的水利信息垂直搜索方法技术

技术编号:8022489 阅读:196 留言:0更新日期:2012-11-29 04:43
本发明专利技术公开了一种基于云平台的水利信息垂直搜索方法,包括如下步骤:构建种子站点列表;利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;为网页的结构化数据建立倒排索引,将索引结果存储于索引库;根据用户提交的搜索请求搜索索引库并返回搜索结果。本发明专利技术对水利网页进行质量优化,提高检索质量;实现分布式搜索,提高检索效率。

【技术实现步骤摘要】

本专利技术涉及一种数据捜索方法,特别涉及一种基于云平台的水利信息垂直捜索方法。
技术介绍
随着信息技术的迅猛发展,“信息雪崩”(Information Avalanche)现象愈发严重,如何让用户,特别是特定领域的专业用户,在海量的信息资源中快速检索到最为准确、有用的信息成为研究热点之一。垂直搜索引擎是相对通用搜索引擎存在的信息量大、查询不准确、捜索深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供具备一定价值的信息和相关服务。当前,垂直搜索引擎已经在IT、招聘、购物、旅游等 诸多领域得到一定的应用。水利行业属于信息密集型行业,该领域的信息资源种类、内容繁多,专业性強,而且分布散乱。当前,通用搜索引擎在水利信息资源的覆盖范围、水利信息数据的挖掘深度以及对水利术语的识别能力等方面均有所欠缺,不能有效地满足水利工作者的专业化检索需求。目前国内对水利领域专业信息检索的研究比较少,虽然有研究人员提出过建设水利专业搜索引擎的设想,但没有给出比较具体和完善的技术实现。可以说目前在水利领域尚未有一个比较成熟的、应用广泛的、高质量的专业检索工具。
技术实现思路
专利技术目的针对上述现有技术存在的问题和不足,本专利技术的目的是提供一种基于云平台的水利信息垂直捜索方法,向水利领域工作者提供ー个能及时、全面、系统地了解水利领域信息资源的平台。技术方案为实现上述专利技术目的,本专利技术利用一个可定制化的网络爬虫,定向抓取目标站点的信息资源,抓取范围可根据用户需求进行相应扩展;根据水利行业标准和专家认定机制,应用情报学中的相关理论,对水利网页进行质量优化处理,提高检索质量;充分利用已有的云平台资源实现分布式捜索,使其具备更强的计算能力、更高的稳定性和更好的可扩展性,提高检索效率。本系统包括基础设施层、虚拟化层、服务层和客户端层四个层次。服务层描述了本系统的工作机制,由抓取器、索引器、捜索器三部分组成,主要实现步骤如下步骤I :构建种子站点列表;步骤2 :利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;步骤3 :构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;步骤4 :对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;步骤5 :为网页的结构化数据建立倒排索引,将索引结果存储于索引库;步骤6 :根据用户提交的捜索请求搜索索引库并返回捜索結果。为了提高检索质量和效率,在建立索引之前对已抓取的水利网页进行质量优化。即所述步骤5中, 在为网页的结构化数据建立倒排索引之前,还包括应用齐普夫定律构建出水利领域停用词典,应用布拉德福定律筛选出水利核心网站的步骤。优选地,所述步骤6中,根据用户提交的搜索请求分布式捜索索引库并返回捜索结果。有益效果将齐普夫定律、布拉德福定律等情报学理论应用于水利信息领域,对水利网页进行质量优化,提高检索质量;充分利用已有的云平台资源组建更为庞大的计算网络,实现分布式搜索,提高检索效率。附图说明图I是本专利技术的体系结构图;图2(A)是本专利技术前10条搜索结果的实验对比图,图2(B)是本专利技术前30搜索结果的实验对比图。具体实施例方式下面结合附图和具体实施例,进ー步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图I所示,本系统包括4个层次,分别是基础设施层、虚拟化层、服务层和客户端层。在虚拟化层中,将ー个Hadoop集群部署在云平台虚拟机上,应用Map/Reduce编程模型分布式处理任务,并在HDFS (分布式文件系统)中存储数据。服务层描述了系统的工作机制,由抓取器、索引器、捜索器三部分组成,具体的技术方案包括如下步骤步骤I :选取中国水利部、中国水网等30余个水利行业的代表性政府和科研机构网站,将其入口地址组织成种子站点列表。步骤2 :使用Heritrix技术实现了一个针对水利特定业务的网络爬虫,从种子站点开始沿网页中的链接向下进行搜索、过滤、抓取和存储操作,将已抓取的网页保存到本地网页库。步骤3 :为了尽可能提高水利专业词汇的分词精度、消除歧义切分,需要构建水利领域词典辅助分词。将以《水利水电工程技术术语标准》(SL26— 92)、《农村水利技术术语》(SL56-2005)为代表的12个门类,具体40个水利行业标准,组织成水利术语标准集。针对不同格式的文档,以手工录入、jxl解析Excel、DOM解析Xml等方式,将标准集中出现的所有水利术语汇总入数据库。利用数据库对水利术语进行去重处理后导出到die文档,构建出相对比较完备的水利领域词典,并将其配置到IKAnalyzer中文分词工具中。步骤4 :利用HTMLParser工具遍历网页文件的文本节点,对网页库中的网页进行解析,抽取出网页标题、内容等文本信息,可对这些结构化数据建立索弓I。这种将网页的半结构化数据抽取成便于存储和索引的结构化数据的过程,是垂直搜索引擎与通用网页搜索引擎的重要区别之一。步骤5 :应用齐普夫定律构建出水利领域停用词典,并将其配置到IKAnalyzer中文分词工具中,提闻对检索和鉴别最具意义的水利关键词的密度,提闻检索的效率和质量;应用布拉德福定律筛选出水利核心网站,对水利核心网站中的网页增加更新频次并提高文档评分,重点突出包含更多水利信息的网页资源,提高实用价值和用户体验。步骤6 :利用Lucene工具为网页的结构化信息建立倒排索引,其中包括了初始化索引、向索引添加文档、索引优化、编码转换、调整动态URL、关闭索引等一系列具体工作。步骤7 :利用JavaEE相关技术实现了一个具备搜索和显示功能的Web交互界面,根据用户提交的搜索请求分布式捜索索引库,将进行相关度排序后的搜索结果分页显示给用户。搜索引擎的第一页和前三页搜索结果对于一般用户来说是最具实际价值的。在百 度、谷歌以及本系统中分别输入相同的水利关键词进行检索。分别统计前10个和前30个捜索结果中,对水利工作者更具价值的水利相关文本网页的个数,部分实验结果如图2 (A)和图2(B)所示。根据实验分析结果和专家认定机制,本系统在水利词汇检索上相比通用搜索引擎优势较为明显,可以向用户提供对水利信息资源的高质量、高效率检索服务。权利要求1.一种基于云平台的水利信息垂直捜索方法,包括如下步骤 步骤I:构建种子站点列表; 步骤2 :利用网络爬虫抓取种子站点的水利网页并保存到本地网页库; 步骤3 :构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;步骤4:对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据; 步骤5 :为网页的结构化数据建立倒排索引,将索引结果存储于索引库; 步骤6 :根据用户提交的捜索请求搜索索引库并返回捜索結果。2.根据权利要求I所述ー种基于云平台的水利信息垂直捜索方法,其特征在于所述步骤5中,在为网页的结构化数据建立倒排索引之前,还包括应用齐普夫定律构建出水利领域停用词典,应用布拉德福定律筛选出水利核心网站的步骤。3.根据权利要求I所述ー种基于云平台的水利信息垂直捜索方法,其特征在于所本文档来自技高网...

【技术保护点】
一种基于云平台的水利信息垂直搜索方法,包括如下步骤:步骤1:构建种子站点列表;步骤2:利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;步骤3:构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;步骤4:对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;步骤5:为网页的结构化数据建立倒排索引,将索引结果存储于索引库;步骤6:根据用户提交的搜索请求搜索索引库并返回搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:叶枫高依旻彭顺风周远超
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1