一种基于Hadoop平台的Deep Web查询接口聚类方法技术

技术编号:9829545 阅读:319 留言:0更新日期:2014-04-01 18:32
本发明专利技术公开了一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行潜在语义分析;选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数。所述方法还包括:配置用于减少网络数据传输量的数据压缩函数;搭建分布式平台,在集群上运行。本发明专利技术通过构建集群,充分利用并行处理的优势,将待聚类的查询接口分发到多台机器上,每台机器进行初步聚类后汇总结果,再次分发待聚类数据到不同机器上,直到结果收敛。同时,能够保证聚类结果的正确性与可靠性。解决了单机情况下遇到的难题。

【技术实现步骤摘要】
一种基于Hadoop平台的DeepWeb查询接口聚类方法
本专利技术涉及服务计算
,具体涉及一种基于Hadoop平台的DeepWeb查询接口聚类方法。
技术介绍
随着计算机技术的高速发展和互联网应用的日益普及。Web中蕴含的信息也在极速的扩张着。目前,主流的搜索引擎,如百度、Google等搜索引擎的搜索范围仅仅覆盖了“表层网”(SurfaceWeb),而对蕴含信息量占网络总信息量70%的“深层网”(DeepWeb)却是束手无策。“深层网”具有如下4个特点:(1)用户通过填写表单来获取信息;(2)蕴含的信息质量高、信息量大;(3)领域特征明显;(4)大部分信息,用户可以免费获取。由于“深层网”自身的特点,以及其蕴含信息的巨大的价值,学术界和商业界对“深层网”搜索技术展开了广泛的研究。面对浩如烟海的DeepWeb数据,研究“深层网”搜索技术遇到各种困难,包括:(1)DeepWeb查询接口数量巨大且增长速度快、呈现出海量的特性;(2)用户只能通过填写Form表单获取信息;(3)用户提交的查询需求差异性大;(4)数据的获取具有动态性;(5)如何将用户的请求转化为具体的DeepWeb数据源的请求。针对上面这5点难题,目前一种有效的策略是基于领域的DeepWeb查询接口集成,因为同一领域的DeepWeb具有很强的共性。而如何对DeepWeb查询接口进行聚类便是这一策略需要解决的核心问题之一。传统的单机的DeepWeb查询接口聚类处理方式在遇到海量的DeepWeb查询接口时,在时间复杂度和空间复杂度上遇到了瓶颈。
技术实现思路
针对现有技术的不足,本专利技术提供一种基于Hadoop平台的DeepWeb查询接口聚类方法,用户可以轻松的搭建自己的分布式平台,利用集群的计算和存储能力完成海量数据的处理,并且能够保证聚类结果的正确性与可靠性。本专利技术的技术方案如下所述。一种基于Hadoop平台的DeepWeb查询接口聚类方法,包括:通过本体对DeepWeb查询接口进行语义扩展,并对DeepWeb查询接口进行潜在语义分析;选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数。所述通过本体对DeepWeb查询接口进行语义扩展的具体步骤包括:(1)确定领域本体的范围,从DeepWeb查询接口中获取核心属性,并挖掘出属性之间的语义关系、每个领域的查询接口属性,选择出现频率高于10的属性;(2)根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系;(3)使用本体描述语言构建核心领域本体;(4)根据核心领域本体的属性,从结果页面中定位所需的目标数据区域;(5)提取结果页面的模式;(6)将结果页面中的概念和实例合并入领域核心本体;(7)如果某一查询接口中的属性出现在本体中,则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。所述对DeepWeb查询接口进行潜在语义分析的具体步骤包括:(1)根据经过语义扩展后的查询接口集构建DeepWeb查询接口的向量空间模型,即“查询接口-属性”矩阵;(2)对第一步生成的“查询接口-属性”矩阵进行矩阵分解,然后选取K值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。另外,本专利技术所述方法还包括:配置用于减少网络数据传输量的数据压缩函数;搭建分布式平台,在集群上运行。本专利技术的有益效果:本专利技术通过构建集群,充分利用多台计算机并行处理的优势,将待聚类的查询接口分发到多台机器上,每台机器进行初步聚类后,汇总结果,再次分发待聚类数据到不同机器上,直到结果收敛。同时,在聚类之前引入本体语义扩展和潜在语义分析的方法,增加同一领域DeepWeb查询接口之间的语义相似度,最终解决了单机情况下遇到的难题。附图说明图1为本专利技术的拓扑结构示意图。图2为本专利技术的流程框图。具体实施方式下面结合附图和实施例对本专利技术做进一步详细描述。Hadoop是一个能够对海量数据进行分布式处理的软件架构。以Hadoop分布式文件系统(HDFS)和MapReduce为核心的Hadoop为用户提供了系统底层透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点使得用户可以将Hadoop部署在低廉的硬件上,形成分布式系统;Mapreduce编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。因此,用户可以轻松的搭建自己的分布式平台,利用集群的计算和存储能力完成海量数据的处理。因此在对海量DeepWeb查询接口聚类时,引入Hadoop平台是一个极好的选择。同时为了保证聚类结果的正确性与可靠性,在聚类之前,使用本体对DeepWeb查询接口进行语义扩展,并对DeepWeb查询接口进行潜在语义分析(LSA)。通过本体对DeepWeb查询接口语义扩展的具体步骤如下:1.确定领域本体的范围,从DeepWeb查询接口中获取核心属性,并挖掘出属性之间的语义关系。每个领域的查询接口属性,选择出现频率高于10的属性;2.根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系;3.使用本体描述语言构建核心领域本体;4.根据核心领域本体的属性,从结果页面中定位所需的有用数据区域;5.提取结果页面的模式;6.将结果页面中的概念和实例合并入领域核心本体;7.如果某一查询接口中的属性出现在本体中,则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。基于LSA的DeepWeb查询接口聚类的具体步骤如下:1.根据经过语义扩展后的查询接口集构建DeepWeb查询接口的向量空间模型,即“查询接口-属性”矩阵。2.对第一步生成的矩阵进行SVD的分解,然后选取K值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。3.选取K-Means算法,对DeepWeb查询接口进行聚类。Hadoop平台下DeepWeb查询接口聚类的具体步骤如下:1.选取K-Means算法。2.搭建分布式平台,对平台的正确性和可靠性进行测试。其中两台分别是名称节点(NameNode)和备份名称节点(seconderayNameNode),以防系统崩溃及用于数据恢复。3.将K-Means算法进行并行化改造,分别设计map函数、combine函数和reduce函数。4.配置数据压缩函数减少网络数据传输量。5.设置合理的reduce个数。6.在集群上运行。如图1所示,基于Hadoop平台的DeepWeb查询接口聚类方法,展示了整个系统的数据处理流程和拓扑结构。Hadoop集群中的计算节点和NameNode之间通过高速网络相连。数据在网络传输之前先进行压缩,减少网络带宽压力,提高聚类的速度。Hadoop数据处理具体步骤为:1.名称节点(NameNode)接收到输入数据,分片之后,将数据分发到数据节点(DataNode)上。2.DataNode接收到数据,将数据转化为<keyInit,valueInit>,随后Map函数来处理<keyInit,valueInit>输入,然后计算产生一个中间的<keyTmp,valueTmp>对集合。3.DataNode上的Combine函数在本地将<keyTmp,valueT本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201310562974.html" title="一种基于Hadoop平台的Deep Web查询接口聚类方法原文来自X技术">基于Hadoop平台的Deep Web查询接口聚类方法</a>

【技术保护点】
一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行潜在语义分析;选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数。

【技术特征摘要】
1.一种基于Hadoop平台的DeepWeb查询接口聚类方法,包括:通过本体对DeepWeb查询接口进行语义扩展,并对DeepWeb查询接口进行潜在语义分析;选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数;所述通过本体对DeepWeb查询接口进行语义扩展的具体步骤包括:(1)确定领域本体的范围,从DeepWeb查询接口中获取核心属性,并挖掘出属性之间的语义关系、每个领域的查询接口属性,选择出现频率高于10的属性;(2)根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系;(3)使用本体描述语言构建核心领域本体;(4)根据核心领域本体的属性,从结果页面中定位所需的目标数据区域;(5)提取结果页面的模式;(6)将结果页面中的概念和实例合并入领域核心本体;(7)如果某一...

【专利技术属性】
技术研发人员:强保华
申请(专利权)人:桂林电子科技大学 强保华
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1