一种基于hadoop的通用创建索引方法及系统技术方案

技术编号:9838363 阅读:185 留言:0更新日期:2014-04-02 02:05
本发明专利技术提供了一种基于hadoop的创建索引的方法,包括业务端服务将待索引数据载入HDFS文件系统,根据对所述数据和索引方式的配置,在该系统中分布式创建索引,具体包括以下步骤:检索和存储数据;配置和数据路径指定;导入配置索引配置文件和数据解析格式;分布式读取数据和写入索引;合并索引。本发明专利技术改进了创建索引过程中读取数据和创建索引的速度,并且不需要单独部署服务和单独开发索引。

【技术实现步骤摘要】
一种基于hadoop的通用创建索引方法及系统
本专利技术涉及数据管理领域,特别涉及一种基于hadoop的创建索引方法和系统。
技术介绍
随着信息化进程的加快,传统的集中式数据存储与处理方法已经无法满足海量空间数据及其查询处理的需求。云计算技术是近年来计算机领域出现的具有很好可扩展性的处理大规模计算的新技术,其属于建立在大量成本较低的硬件之上的分布式文件系统,能提供高吞吐量的数据访问;MapReduce并行计算框架将大量的数据操作分散给各个计算节点并行处理,达到提高整个云计算平台处理能力的目的。云计算所具备的高伸缩性、高扩展性、高容错性和强大并行处理能力使其成为海量数据高效存储与处理的理想方案。作为开源的云计算平台,hadoop以其扩容能力强、成本低廉、效率高、高可靠性、免费及良好的可移植性等优点,迅速成为当前主流的分布式计算框架和大规模数据存储解决方案。hadoop作为云存储平台,由一个NameNode和多个DataNode组成,其中NameNode负责管理文件系统名称空间和控制外部客户端的访问,DataNode负责存储数据。随着电子商务的复杂化,平台中的多种海量数据要实现针对不同应本文档来自技高网...
一种基于hadoop的通用创建索引方法及系统

【技术保护点】
一种基于hadoop的创建索引的方法,其特征在于,业务端服务将待索引数据载入HDFS文件系统,根据对所述数据和索引方式的配置,在该系统中分布式创建索引。

【技术特征摘要】
1.一种基于hadoop的创建索引的方法,其特征在于,业务端服务将待索引数据载入HDFS文件系统,根据对所述数据和索引方式的配置,在该系统中分布式创建索引;该方法包括以下步骤:步骤一、检索和存储数据;业务端服务通过hadoop定期从业务数据中组织检索服务需要的数据;将检索到的数据信息汇总整理成单条数据,并以通用的JSON格式,存储到hadoop文件系统中的预定义存储目录;在所述存储目录中,将所有数据按照特定逻辑分割成多个块,然后存储到所述存储目录下的子目录中,以支持后续的索引创建服务的多任务执行;步骤二、配置和数据路径指定;所述配置和数据路径指定包括在通用索引系统中配置数据信息,以及数据中的信息索引方式;所述在通用索引系统中配置数据信息,以及数据中的信息索引方式包括,配置导入数据的索引方式,具体包括:根据单行数据中的每列的检索属性,在schema文件中配置对应的属性域信息,包括配置描述数据信息写索引时的约束;完成文件系统数据到索引数据之间的转换,将完成的上述配置上传到hadoop文件系统中,用于建立索引;所述在通用索引系统中配置数据信息,以及数据中的信息索引方式还包括,配置schema文件路径和泛解析JSON的java类路径,以使系统自动解析JSON,并获取数据的存储目录和数据到索引的解析文件;步骤三、导入配置索引配置文件和数据解析格式;步骤四、分布式读取数据和写入索引;所述分布式读取数据和写入索引包括:通过hadoop创建多个并发子任务,每个子任务根据上述数据信息和索引方式的配置,到指定目录读取数据;读取数据后,根据上述数据信息和索引方式的配置,将JSON中的数据转换为JAVA对象,从而将文件系统中一条完整的数据信息装载到一个JAVA对象中,对象中的每个属性对应于数据中的每个域的信息;根据上述对schema文件配置,利用配置文件中配置每行信息中的属性域的属性,到JAVA中取对应的属性的信息;根据每行信息配置的属性信息创建该项数据的域信息,并写入索引文件;将索引过程的小块索引文件写入配置文件中数据目录下的相应目录;步骤五、合并索引。2.据权利要求1所述的方法,其中:所述数据的JSON格式可以根据数据的实际信息量来确定。3.根据权利要求1所述的方法,其中所述数据信息写索引时的约束包括:name项,用于描述该条数据中属性域的名称是ic,type项,用于描述数据索引的类型,indexed项,用于描述此条数据中属性域是否参与索引,stored项,用于描述此条数据中属性域是否参与存储,required项,用于描述本属性域是否为必需项。4.根据权利要求1所述的方法,其中所述导入配置索引配置文件和数据解析格式包括:针对不同数据类型单独进行所述步骤二的配置操作,并将不同数据的配置文件置于通用系统的其他目录,以使系统用于多种数据建立索引,在针对特定类型的数据启动建立索引前,将该类型数据的对应配置导入到系统的执行环境。5.根据权利...

【专利技术属性】
技术研发人员:王冬杰
申请(专利权)人:世纪禾光科技发展北京有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1