大数据优化分析方法技术

技术编号:16270053 阅读:67 留言:0更新日期:2017-09-22 21:43
本发明专利技术提供了一种大数据优化分析方法,该方法包括:构建文件索引树结构,基于上述文件索引结构,对小文件进行合并。本发明专利技术提出了一种大数据优化分析方法,基于改进的分布式处理架构将来自不同异构源的多种小文件进行统一规范组织,便于高效存储、分析与检索。

【技术实现步骤摘要】
大数据优化分析方法
本专利技术涉及数据计算,特别涉及一种大数据优化分析方法。
技术介绍
云计算技术拥有分布式计算,超大规模,虚拟化,高可靠性,高弹性,可扩展,按需服务等特点,能够为大数据处理提供更为高效的分析以及更好的计算能力。针对大数据处理中的数以亿计的小文件处理,需要分布式存储系统和索引系统来为网页和邮件等文件提供存储支持。随着大量小文本文件处理的应用需求,不同信息系统中存在着大量异构数据源;数据缺乏统一的规范化组织方法;在某些领域,大量小文本文件难以有效分析和高效存储与检索。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种大数据优化分析方法,包括:以K维空间数据集划分的树构建文件索引树形结构的主干,判断K维树是否为空,若为空则直接作为根节点;否则比较该点与K维树根节点相应维的值的大小关系,进入其左、右子树进行下一步操作;若该点小于根节点相应维的值,则进入左子树进行查找操作直至某个节点的左子树或右子树为空;则将该点插入作为其叶子节点;若该点大于根节点相应维的值,则进入右子树进行插入操作;然后,在该K维树的叶子节点上加载位置敏感散列结构,即将剩余的点放置入位置敏感散列中;将数据集X转化为空间中的二进制串;预先选取参数r>0,c>1,随机选取K个散列函数;利用这些散列函数将数据点存入相应的散列表中;基于上述文件索引结构,对小文本文件进行合并,设有多个文件A1,A2…An,其中Ai=ai1,ai2,…,aik…,且aik为文件名的第k个字符,具体步骤为:步骤1,对输入的字符串Ai,i=l,2,...n找到aik=‘.’,截取aik后面的所有字符,统计这个块中具有此类文件的个数,记为mij;依次计算同一节点中每一块所包含的此类文件的个数,得到序列mi1,mi2,...min,求mi=∑mij;表示这个节点中包含的扩展名的类别;j=0,1,…,n;步骤2.计算这个节点中存放的所有小文本文件的数目M,获取小文本文件在分类过程中设置的权值;步骤3.求解每个类型文件所占的比例mi/M,按比例从大到小排序;形成的扩展名列表在datanode中维护;步骤4.统计这个节点上的mi中的根节点,形成根节点列表;在每个扩展名中都有一个根节点列表,此列表在datanode中维护;步骤5.根据待放置的块所在的Reduce任务,得到此块的扩展名;步骤6.读取待放置的块的根节点,设置根节点列表,按照权值相似度最大原则对根进行排序;步骤7.选择此块中排在第一位的根;步骤8.在集群中找到扩展名所占比例最大的节点;在其中查找此根,如果存在,放置此块;步骤9.将此节点从候选列表中排除,然后判断列表是否为空;不为空,转步骤8;步骤10.将此根从根的列表中排除,判断根的列表是否为空;若不为空,转步骤7;若为空,随机存放在有此扩展名的节点上。优选地,本专利技术相比现有技术,具有以下优点:本专利技术提出了一种大数据优化分析方法,基于改进的分布式处理架构将来自不同异构源的多种小文件进行统一规范组织,便于高效存储、分析与检索。附图说明图1是根据本专利技术实施例的大数据优化分析方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种大数据优化分析方法。图1是根据本专利技术实施例的大数据优化分析方法流程图。本专利技术通过文件分类,建立索引结构,并基于权值相似度文件合并成大文件以在云计算环境下处理。在对小文本文件进行分类时,利用MapReduce描述K近邻分类过程,同时,在K近邻中加入特征向量比较,顺序重新构造两个特征词相同的特征向量。针对文档检索过程中的复杂处理及内容映射关系,基于XML和多值的改进MapReduce模型。通过XML标记数据的内容,坐标,操作等信息,进行数据复杂处理。数据的内容一般具有映射关系,通过XML标记及Map过程中的多值处理,实现数据处理的操作。首先,按文档格式进行初次分类。对于分类后的文本文档,根据基于MapReduce和特征向量减少的改进K近邻分类方法进行分类。然后合并统一类别的小文本文件,生成大文件。。将小文本文件按照时间顺序写入大文件,然后将大文件的名字、副本、位置信息写入名字节点,将内容写入datanode。在K近邻算法中加入传统的特征向量的比较方法,先找出两个原始特征向量之间相同的词及其权重,按照相同特征词的顺序重新构造两个特征词都相同的特征向量,再利用特征词对应的权重向量来计算这两个特征向量之间的相似度。方法描述如下:对训练集中的所有文本进行预处理,生成键值对形式的特征向量;步骤1.归一化输入的文本的特征向量T和训练样本的特征向量集ET;并计算出T、ET中相同的特征词;步骤2.把相同的特征词和对应的权值提取出来组成新的向量NT、NET;步骤3.应用MapReduce进行相似度计算。计算两个特征向量的权值组成的一元向量之间的相似度sim(t,x);步骤4.MapReduce对计算的文本的相似度计算结果进行排序;步骤5.取出相似度最高的k个文本;把这k个文本的相似度按类别累加;步骤6.取相似度最大值Si以及对应的类别Ci;步骤7.若Si大于预定义相似度阈值,则标识该文本属于Ci类。在索引结构方面,以K维空间数据集划分的树构建整个树形结构的主干,判断K维树是否为空,若为空则直接作为根节点。否则比较该点与K维树根节点相应维的值的大小关系,进入其左、右子树进行下一步操作;若该点小于根节点相应维的值,则进入左子树进行查找操作直至某个节点的左子树或右子树为空。则将该点插入作为其叶子节点;若该点大于根节点相应维的值,则进入右子树进行插入操作。然后,在该K维树的叶子节点上加载位置敏感散列结构,即将剩余的点放置入位置敏感散列中。将数据集X转化为空间中的二进制串;预先选取参数r>0,c>1,随机选取K个散列函数;利用这些散列函数将数据点存入相应的散列表中。以上述文件索引规则为基础,对小文本文件进行合并,设有多个文件A1,A2…An,其中Ai=ai1,ai2,…,aik…,且aik为文件名的第k个字符。具体步骤为:步骤1,对输入的字符串Ai(i=l,2,...n),找到aik=‘.’,截取aik后面的所有字符。统计这个块中具有此类文件的个数,记为mij。依次计算同一节点中每一块所包含的此类文件的个数,得到序列mi1,mi2,...min,求mi=∑mij(j=0,1,…,n)表示这个节点中包含的扩展名的类别。步骤2.计算这个节点中存放的所有小文本文件的数目M,获取小文本文件在分类过程中设置的权值。步骤3.求解每个类型文件所占的比例mi/M,按比例从大到小排序。形成的扩展名列表在datanode中维护。步骤4.统计这个节点上的mi中的根节点,形成根节点列表。在每个扩展名中都有一个根节点列表。此列表在datanode中维护。步骤5.根据待放置的块所在的Reduce任务,得到此块的本文档来自技高网...
大数据优化分析方法

【技术保护点】
一种大数据优化分析方法,用于在云计算环境下处理小文件,其特征在于,包括:以K维空间数据集划分的树构建文件索引树形结构的主干,判断K维树是否为空,若为空则直接作为根节点;否则比较该点与K维树根节点相应维的值的大小关系,进入其左、右子树进行下一步操作;若该点小于根节点相应维的值,则进入左子树进行查找操作直至某个节点的左子树或右子树为空;则将该点插入作为其叶子节点;若该点大于根节点相应维的值,则进入右子树进行插入操作;然后,在该K维树的叶子节点上加载位置敏感散列结构,即将剩余的点放置入位置敏感散列中;将数据集X转化为空间中的二进制串;预先选取参数r>0,c>1,随机选取K个散列函数;利用这些散列函数将数据点存入相应的散列表中;基于上述文件索引结构,对小文本文件进行合并,设有多个文件A1,A2…An,其中Ai=ai1,ai2,…,aik…,且aik为文件名的第k个字符,具体步骤为:步骤1,对输入的字符串Ai,i=l,2,...n找到aik=‘.’,截取aik后面的所有字符,统计这个块中具有此类文件的个数,记为mij;依次计算同一节点中每一块所包含的此类文件的个数,得到序列mi1,mi2,...min,求mi=∑mij;表示这个节点中包含的扩展名的类别;j=0,1,…,n;步骤2.计算这个节点中存放的所有小文本文件的数目M,获取小文本文件在分类过程中设置的权值;步骤3.求解每个类型文件所占的比例mi/M,按比例从大到小排序;形成的扩展名列表在datanode中维护;步骤4.统计这个节点上的mi中的根节点,形成根节点列表;在每个扩展名中都有一个根节点列表,此列表在datanode中维护;步骤5.根据待放置的块所在的Reduce任务,得到此块的扩展名;步骤6.读取待放置的块的根节点,设置根节点列表,按照权值相似度最大原则对根进行排序;步骤7.选择此块中排在第一位的根;步骤8.在集群中找到扩展名所占比例最大的节点;在其中查找此根,如果存在,放置此块;步骤9.将此节点从候选列表中排除,然后判断列表是否为空;不为空,转步骤8;步骤10.将此根从根的列表中排除,判断根的列表是否为空;若不为空,转步骤7;若为空,随机存放在有此扩展名的节点上。...

【技术特征摘要】
1.一种大数据优化分析方法,用于在云计算环境下处理小文件,其特征在于,包括:以K维空间数据集划分的树构建文件索引树形结构的主干,判断K维树是否为空,若为空则直接作为根节点;否则比较该点与K维树根节点相应维的值的大小关系,进入其左、右子树进行下一步操作;若该点小于根节点相应维的值,则进入左子树进行查找操作直至某个节点的左子树或右子树为空;则将该点插入作为其叶子节点;若该点大于根节点相应维的值,则进入右子树进行插入操作;然后,在该K维树的叶子节点上加载位置敏感散列结构,即将剩余的点放置入位置敏感散列中;将数据集X转化为空间中的二进制串;预先选取参数r>0,c>1,随机选取K个散列函数;利用这些散列函数将数据点存入相应的散列表中;基于上述文件索引结构,对小文本文件进行合并,设有多个文件A1,A2…An,其中Ai=ai1,ai2,…,aik…,且aik为文件名的第k个字符,具体步骤为:步骤1,对输入的字符串Ai,i=l,2,...n找到aik=‘.’,截取aik后面的所有字符,统计这个块中具有此类文件的个数,记为m...

【专利技术属性】
技术研发人员:赖真霖文君
申请(专利权)人:成都四象联创科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1