The invention discloses an information processing method and device, the method comprises: acquiring the column data type column files stored in the database; obtain partition algorithm set, the set partitioning algorithm includes partitioning algorithm two and more than two kinds; the documents listed in the data in the various input partition algorithm for the partitioning algorithm combined by the partitioning algorithm output the partition file; calculating the set partitioning algorithm for each partition algorithm using the partition file partition efficiency; storage partition algorithm using the identification information, the column database and the corresponding partition efficiency corresponding to it.
【技术实现步骤摘要】
一种信息处理方法及装置
本专利技术涉及电子技术,尤其涉及一种信息处理方法及装置。
技术介绍
在多数查询的总体时间中,磁盘数据的扫描占据了至少50%以上的时间,因此,为了优化数据查询和扫描速度,在磁盘数据库(包括关系数据库管理系统(RelationalDatabaseManagementSystem,RDBMS)和非关系型的数据库(NoSQL))中对数据表进行分区是一种常见方法,目的是减少处理查询时扫描的数据规模。通过分区技术可以将数据表分开保存到不同的实体(逻辑实体或者物理服务器)中,通过在处理查询时仅扫描相关的分区来减少查询时间。目前有多种已有的分区的技术,按照类型可以分为范围分区、列表分区和哈希分区,其中:范围分区(Range):按照选定列的数值范围分区,如大于20000的数据保存在分区1中,小等于20000的数据保存到分区2中。其中这个选定的列也被称为分区键(PartitionKey,PK),下同。列表分区(List):按照分区键的离散取值来确定分区,如“中国”、“日本”、“韩国”均可以放置到“东亚”这个分区中。哈希分区(Hash):哈希分区根据一个hash函数确定到底应该将数据保存到哪个分区中。一个哈希函数是事先确定的计算函数,可以将输入的数据,按照实现确定的规则放置到适当的分区中,一个简单的哈希函数是取余数。列式数据库如SybaseIQ、Vertica、InfoBright等在存储方式方面将数据按照列存储为一个实体(如文件),然后按照范围来分区存储。这种方式减少了数据扫描时处理的数据量,但是当需要扫描很多列时,会遇到性能下降的情况,主要是因为将列 ...
【技术保护点】
一种信息处理方法,其特征在于,所述方法包括:获取列式数据库中存储的列文件中数据;获取分区算法集合,所述分区算法集合包括两种及两种以上的分区算法;将所述列文件中数据作为所述分区算法结合中各种分区算法的输入,通过所述分区算法输出分区后的文件;利用分区后的文件计算所述分区算法集合中每一种分区算法的分区效率;将列式数据库的标识信息、所采用的分区算法及其对应的分区效率对应地存储起来。
【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取列式数据库中存储的列文件中数据;获取分区算法集合,所述分区算法集合包括两种及两种以上的分区算法;将所述列文件中数据作为所述分区算法结合中各种分区算法的输入,通过所述分区算法输出分区后的文件;利用分区后的文件计算所述分区算法集合中每一种分区算法的分区效率;将列式数据库的标识信息、所采用的分区算法及其对应的分区效率对应地存储起来。2.根据权利要求1所述的方法,其特征在于,所述分区算法集合至少包括:范围分区算法、列式分区算法和列族分区算法。3.根据权利要求1所述的方法,其特征在于,所述获取列式数据库中存储的列文件中数据,包括:通过FTP方式从所述列式数据库获取原始日志,将所述原始日志按列生成多个列文件数据。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:获取分区规则;分析所述列文件中数据的特征;将所述列文件中数据的特征与所述分区规则进行比对;判断所述列文件中数据的特征是否与所述分区规则匹配,得到判断结果;当所述判断结果表明所述列文件中数据的特征与所述分区规则不匹配时,在将所述列文件中数据作为所述分区算法结合中各种分区算法的输入。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:当所述判断结果表明所述列文件中数据的特征与所述分区规则匹配时,获取所述分区规则对应的分区算法及其对应的分区效率。6.根据权利要求1或2或3或5所述的方法,其特征在于,所述方法还包括:将分区后的文件作为列文件中数据,然后再获取分区算法集合,将所述列文件中数据作为所述分区算法结合中各种分区算法的输入,通过所述分区算法输出分区后的文件;通过所述分区算法集合中每一种分区算法的分区效率。7.根据权利要求1或2或3或5所述的方法,其特征在于,所述利用分区后的文件计算所述分区算法集合中每一种分区算法的分区效率,包括:根据各个分区算法分区后的文件进行分区评估,得到分区比例;对分区后的文件进行查询测试,得到查询时间;根据分区算法的分区效率=分区比例/平均查询时间,计算得到分区算法的分区效率。8.根据权利要求1或2或3或5所述的方法,其特征在于,所述方法还包括:将列式数据库的标识信息、所采用的分区算法及其对应的分区效率以及查询时间对应地存储起来。9.一种信息处理装置,其特征在于,所述...
【专利技术属性】
技术研发人员:陈洪岭,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。