大数据优化分析方法技术

技术编号：16270053 阅读：67 留言：0更新日期：2017-09-22 21:43

本发明专利技术提供了一种大数据优化分析方法，该方法包括：构建文件索引树结构，基于上述文件索引结构，对小文件进行合并。本发明专利技术提出了一种大数据优化分析方法，基于改进的分布式处理架构将来自不同异构源的多种小文件进行统一规范组织，便于高效存储、分析与检索。

全部详细技术资料下载

【技术实现步骤摘要】
大数据优化分析方法
本专利技术涉及数据计算，特别涉及一种大数据优化分析方法。
技术介绍
云计算技术拥有分布式计算，超大规模，虚拟化，高可靠性，高弹性，可扩展，按需服务等特点，能够为大数据处理提供更为高效的分析以及更好的计算能力。针对大数据处理中的数以亿计的小文件处理，需要分布式存储系统和索引系统来为网页和邮件等文件提供存储支持。随着大量小文本文件处理的应用需求，不同信息系统中存在着大量异构数据源；数据缺乏统一的规范化组织方法；在某些领域，大量小文本文件难以有效分析和高效存储与检索。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种大数据优化分析方法，包括：以K维空间数据集划分的树构建文件索引树形结构的主干，判断K维树是否为空，若为空则直接作为根节点；否则比较该点与K维树根节点相应维的值的大小关系，进入其左、右子树进行下一步操作；若该点小于根节点相应维的值，则进入左子树进行查找操作直至某个节点的左子树或右子树为空；则将该点插入作为其叶子节点；若该点大于根节点相应维的值，则进入右子树进行插入操作；然后，在该K维树的叶子节点上加载位置敏感散列结构，即将剩余的点放置入位置敏感散列中；将数据集X转化为空间中的二进制串；预先选取参数r>0，c>1，随机选取K个散列函数；利用这些散列函数将数据点存入相应的散列表中；基于上述文件索引结构，对小文本文件进行合并，设有多个文件A1,A2…An，其中Ai＝ai1,ai2,…,aik…，且aik为文件名的第k个字符，具体步骤为：步骤1，对输入的字符串Ai，i＝l，2，...n找到aik＝‘.’，截取aik...
大数据优化分析方法

【技术保护点】
一种大数据优化分析方法，用于在云计算环境下处理小文件，其特征在于，包括：以K维空间数据集划分的树构建文件索引树形结构的主干，判断K维树是否为空，若为空则直接作为根节点；否则比较该点与K维树根节点相应维的值的大小关系，进入其左、右子树进行下一步操作；若该点小于根节点相应维的值，则进入左子树进行查找操作直至某个节点的左子树或右子树为空；则将该点插入作为其叶子节点；若该点大于根节点相应维的值，则进入右子树进行插入操作；然后，在该K维树的叶子节点上加载位置敏感散列结构，即将剩余的点放置入位置敏感散列中；将数据集X转化为空间中的二进制串；预先选取参数r>0，c>1，随机选取K个散列函数；利用这些散列函数将数据点存入相应的散列表中；基于上述文件索引结构，对小文本文件进行合并，设有多个文件A1,A2…An，其中Ai＝ai1,ai2,…,aik…，且aik为文件名的第k个字符，具体步骤为：步骤1，对输入的字符串Ai，i＝l，2，...n找到aik＝‘.’，截取aik后面的所有字符，统计这个块中具有此类文件的个数，记为mij；依次计算同一节点中每一块所包含的此类文件的个数，得到序列mi1，m...

【技术特征摘要】
1.一种大数据优化分析方法，用于在云计算环境下处理小文件，其特征在于，包括：以K维空间数据集划分的树构建文件索引树形结构的主干，判断K维树是否为空，若为空则直接作为根节点；否则比较该点与K维树根节点相应维的值的大小关系，进入其左、右子树进行下一步操作；若该点小于根节点相应维的值，则进入左子树进行查找操作直至某个节点的左子树或右子树为空；则将该点插入作为其叶子节点；若该点大于根节点相应维的值，则进入右子树进行插入操作；然后，在该K维树的叶子节点上加载位置敏感散列结构，即将剩余的点放置入位置敏感散列中；将数据集X转化为空间中的二进制串；预先选取参数r>0，c>1，随机选取K个散列函数；利用这些散列函数将数据点存入相应的散列表中；基于上述文件索引结构，对小文本文件进行合并，设有多个文件A1,A2…An，其中Ai＝ai1,ai2,…,aik…，且aik为文件名的第k个字符，具体步骤为：步骤1，对输入的字符串Ai，i＝l，2，...n找到aik＝‘.’，截取aik后面的所有字符，统计这个块中具有此类文件的个数，记为m...

【专利技术属性】
技术研发人员：赖真霖，文君，
申请(专利权)人：成都四象联创科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人