西安烽火软件科技有限公司专利技术

西安烽火软件科技有限公司共有49项专利

  • 本发明公开了一种基于动态资源的Spark SQL任务调度优化方法,针对用户提交的作业,划分为多个可并行执行的阶段,每个任务集中包含多个任务;预设衰减中位数,将各阶段划分为大阶段和小阶段;基于衰减中位数,构建衰减函数,计算衰减因子;针对各...
  • 本发明公开了一种基于块数据的实时检索方法及系统,涉及大数据存储与元数据管理技术领域;通过构建表→分区→容器三级数据组织结构,以容器为最小管理单元维护路由索引,实现聚集键驱动的实体级数据精准定位;数据写入时按聚集键排序并注册路由;查询时通...
  • 本发明公开了一种稀疏数据的压缩方法,属于大数据、实时计算领域,具体包含;步骤1,UnsafeRow数据内存布局优化:步骤2,UnsafeRow数据编码;步骤3,UnsafeRow数据解码;步骤4,压缩UnsafeRow的序列化和反序列化...
  • 本发明公开了一种基于Spark SQL的多路插入查询优化方法,属于大数据处理与分布式计算领域,包含:进行SQL规则匹配;识别出是否为Union的多路插入结构;抽取多路插入公共子计划;剥离多路插入各分支的特有逻辑;构建多插入命令,合并多路...
  • 本发明公开了一种基于块索引的IO合并机制,涉及大数据、信息检索技术领域,通过扩展Lucene的Directory接口,将开源Lucene原有的多文件流输出机制优化为单文件流输出,从而在索引写入过程中实现IO操作的合并,具体包含文件存储结...
  • 本发明公开了一种基于块数据的分层数据摘要机制,属于大数据处理与数据库优化技术领域,具体包含如下步骤;构建三级分类、多类型数据摘要体系;定义声明式数据摘要语法;建立结构化元数据管理机制;实现智能计算加速:查询优化器在解析SQL时,自动匹配...
  • 本发明公开了一种基于Flink SQL的动态计算拓扑优化方法,涉及大数据、实时计算领域,通过对原生Flink SQL执行计划的匹配,重新实现自定义计算拓扑编排,完成不同SQL计算拓扑的动态压缩;旨在基于Flink SQL引擎构建一种创新...
  • 本发明公开了一种基于Spark SQL的笛卡儿积Join优化方法,属于属于大数据、数据库领域,通过对多等值条件OR这种非等值关联条件的Join SQL任务进行执行计划重写,将多等值条件OR这种非等值关联条件折叠为等价的虚拟关联列等值关联...
  • 本发明公开了一种基于YARN的资源可编程弹性加速方法,涉及大数据存储计算领域,包含用户、资源管理主节点、资源管理从节点以及应用程序协调者,该方法提供动态资源申请与生命周期管理方法,减少资源闲置与浪费。通过资源有效期匹配机制,避免任务因资...
  • 本发明公开了一种基于Spark的数据倾斜优化方法,属于大数据、数据库领域,在于在Map任务侧提前识别出倾斜的分区,并根据用户需求处理倾斜数据,避免倾斜数据被shuffle到Reduce端,导致倾斜的Reduce拉取shuffle数据耗时...
  • 本发明公开了一种基于大IO预读以加速HDFS读数据的方法,属于大数据存储领域,包含客户端Clien、数据节点DracosNode两部分;包含如下步骤:引入了DracosNode来代替DataNode的读数据功能;DracosNode服务...
  • 本发明公开了一种基于HDFS批量设置存储策略加速方法,属于大数据存储领域,本发明通过Java API向NameNode发起RPC请求,申请setBatchedStoragePolicy(批量设置存储策略)文件;为Client提供setB...
  • 本发明公开了一种基于YARN资源动态感知变化加速集群处理的方法,涉及大数据存储领域,本发明使用YARN的动态资源策略,用户会根据时段来区分集群资源的分配情况。如:在夜晚时段集群资源主要倾向于数据归档等任务,白天时段集群资源主要倾向于查询...
  • 本发明公开了一种基于HDFS批量重命名文件加速方法,涉及大数据存储技术领域,极大地减少Client与NameNode的RPC交互次数,以及减少FileSystem写锁writeLock持有次数,提高NameNode处理性能;Client...
  • 本发明公开了一种基于HDFS分段加载元数据优化方法,涉及大数据存储领域,在NameNode启动过程中,将磁盘元数据fsimage和edits文件加载到内存中;加载长时间未进行合并的元数据文件,会遇到内存使用量过大,频繁的垃圾回收;在Jv...
  • 本发明公开了一种基于HDFS批量删除文件加速方法,涉及大数据存储技术领域,通过为Client提供批量删除文件的方法,极大地减少Client与NameNode的交互次数,从而减少多次发起的网络延时开销。同时也会降低NameNode的CPU...
  • 本发明公开了一种基于HDFS写数据均衡的策略方法,属于大数据存储领域,本发明通过引入考虑数据节点的磁盘使用率,将磁盘使用率过高的节点从可选的节点列表中移除,从而在写数据的时候,尽可能保持集群节点的存储使用率均衡。客户端在写数据时候,会向...
  • 本发明涉及数据计算技术领域,更具体地说是一种Spark任务输出目录并行加速方法,并行加速方法具体步骤包括:job启动创建目录、Task运行创建文件、Task运行创建目录、commitTask数据转移和创建标记文件;通过对FileOutp...
  • 本发明公开了一种基于图计算的ID‑Mapping方法,涉及大数据计算技术领域,包含信息提取模块、预计算模块、图计算模块、迭代计算模块,用于提升ID‑Mapping的准确度,并且使ID关系具有可靠性与实时性。通过定义ID关系的统计要素,并...
  • 本发明涉及大数据存储技术领域,提供一种基于HDFS批量访问元数据和定制轻量级内存结构的加速方法,包括Client通过JavaAPI,调用FileSystem类listLocatedStatus方法获取指定多个文件或者目录下的元数据信息,...