数据分析方法及装置制造方法及图纸

技术编号:24331892 阅读:14 留言:0更新日期:2020-05-29 20:01
本发明专利技术实施例提供一种针对海量无规则数据的数据分析方法及装置,属于数据分析领域。所述数据分析方法包括:确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围;根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围,设置所述待分析数据中应用数据处理的多个数据集;以及采用蚁群算法对所述每一个数据集进行数据处理,使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据,以从所述每一个数据集中选择出信息素高于设定阈值的数据,其中信息素越高的数据与预设的所需数据的相关性越高。本发明专利技术能够从海量无规则数据中选择出最优数据,避免了有价值的数据被丢弃。

Data analysis method and device

【技术实现步骤摘要】
数据分析方法及装置
本专利技术涉及数据分析领域,具体地涉及一种数据分析方法及装置。
技术介绍
目前,在许多数据应用领域都存在海量杂乱无序无规则数据(以下简称为海量无规则数据),例如内容营销。内容营销是指以图片、文字、动画等等介质传达有关企业的相关内容来给客户信息,促进销售,就是通过合理的内容创建、发布及传播,向用户传递有价值的信息,从而实现网络营销的目的。根据内容营销的定义,可知其存在一种需求,即是需要从海量无规则数据中抽取满足需求的数据,进行展示和/或营销。举例而言,在利用手机进行内容营销时,需要通过用户手机操作记录等获取用户生活和工作的各个方面的数据,比如性格偏向、投资偏向、穿着偏向、工作专业、情感特征、体貌特征、个人好恶等等,最后通过数据分析来对用户画像,进行个性化的内容营销,满足用户个性化需求。但是,这里涉及的用户数据没有规律性,且每天单个用户产生的数据杂乱而繁多。因此,如果内容营销面向的用户量基础很大,就会产生海量无规则数据。对于这些海量无规则数据,现有技术是通过数据模型化方案来进行处理,即是先通过创建的数据模型将无序无规则的数据转移成规则有序化的数据,再进行分析。但是,在将数据规则有序化的过程中,数据模型没有涉及的数据,往往会被丢弃。换句话说,就是一旦数据在数据模型上转移失败,无序数据、无规则数据、甚至部分无序数据转移的有序数据就会失去意义,被丢弃。但要注意的是,即使这些数据最终被丢弃了,但数据模型仍是对它们进行了数据分析,从而增加了服务器等的数据分析量,占用了较多数据分析资源,最终影响了整个数据分析过程的效率。另外,当前社会的节奏非常快,用户行为习惯的变化也相对很快,而数据模型的创建往往需要一定的时间,如此,现在技术中的数据模型的创建速率很可能无法适应用户数据的迅速变化,从而最后导致产品失去竞争力。
技术实现思路
本专利技术实施例的目的是提供一种数据分析方法及装置,用于现有技术中难以处理海量无规则数据的问题。为了实现上述目的,本专利技术实施例提供一种数据分析方法,包括:确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围;根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围,设置所述待分析数据中应用数据处理的多个数据集;以及采用蚁群算法对所述每一个数据集进行数据处理,使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据,以从所述每一个数据集中选择出信息素高于设定阈值的数据,其中信息素越高的数据与预设的所需数据的相关性越高。可选的,所述采用所述蚁群算法对所述每一个数据集进行数据处理包括:设置所述蚁群算法的初始化参数,其中所述初始化参数包括所述每一数据集中的数据编号、各数据的初始信息素、启发因子和期望因子,其中所述期望因子包括所述所需数据的信息;以及使每只蚂蚁根据所述初始化参数选择数据以开始行走,根据所述初始信息素及所述启发因子计算每只蚂蚁在行走中从当前数据转移至下个数据的概率,并在每次发生数据转移时,计算所述当前数据与所述所需数据之间的相关性,并根据相关性计算结果更新所述当前数据的信息素,直到所有蚂蚁走完所述每一个数据集中的所有数据,完成一次迭代,选择出信息素高于所述设定阈值的数据。可选的,所述计算所述当前数据与所述所需数据之间的相关性,并根据相关性计算结果更新所述当前数据的信息素包括:将所述当前数据对应的所述维度集和所述指标集与所述所需数据的数据头进行比对,以获得所述所需数据的数据头所包含的字段名称含有所述当前数据的所述维度集和所述指标集所占的百分比,将该百分比作为相关性计算结果;以及根据所述相关性计算结果,利用相关性与信息素的对应关系更新所述当前数据的信息素,其中,与所述所需数据的相关性越高的数据对应的信息素越高。可选的,在所述采用所述蚁群算法对每一个数据集进行数据处理后,所述数据分析方法还包括:在完成一次迭代,选择出信息素高于所述设定阈值的数据之后,基于所选择出的数据的信息素更新全局信息素表,并将更新后的全局信息素表应用于下次迭代;以及将相邻两次迭代得到的数据进行比较,选择出两者中信息素更高的数据,直到完成预定次数的迭代,以选择出最优数据。可选的,所述数据分析方法还包括:针对所述待分析数据建立数据图谱;以及在采用所述蚁群算法对所述待分析数据进行数据处理时,参考所述数据图谱确定应用数据处理的所述多个数据集;和/或在采用所述蚁群算法对所述待分析数据进行数据处理时,参考所述数据图谱确定所述初始化参数。另一方面,本专利技术实施例还提供一种数据分析装置,其特征在于,所述数据分析方法装置包括:第一数据处理单元,用于确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围;第二数据处理单元,用于根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围,设置所述待分析数据中应用数据处理的多个数据集;以及第三数据处理单元,用于采用蚁群算法对所述每一个数据集进行数据处理,使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据,以从所述每一个数据集中选择出信息素高于设定阈值的数据,其中信息素越高的数据与预设的所需数据的相关性越高。可选的,所述第三数据处理单元包括:初始化模块,用于设置所述蚁群算法的初始化参数,其中所述初始化参数包括所述每一数据集中的数据编号、各数据的初始信息素、启发因子和期望因子,其中所述期望因子包括所述所需数据的信息;计算模块,用于使每只蚂蚁根据所述初始化参数选择数据以开始行走,根据所述初始信息素及所述启发因子计算每只蚂蚁在行走中从当前数据转移至下个数据的概率,并在每次发生数据转移时,计算所述当前数据与所述所需数据之间的相关性,并根据相关性计算结果更新所述当前数据的信息素;以及第一选择模块,用于在所有蚂蚁走完所述每一个数据集中的所有数据,完成一次迭代时,选择出信息素高于所述设定阈值的数据。可选的,所述计算模块包括:转移概率计算子模块,用于根据所述初始信息素及所述启发因子计算每只蚂蚁在行走中从当前数据转移至下个数据的概率;相关性计算子模块,用于将所述当前数据对应的所述维度集和所述指标集与所述所需数据的数据头进行比对,以获得所述所需数据的数据头所包含的字段名称含有所述当前数据的所述维度集和所述指标集所占的百分比,将该百分比作为相关性计算结果;以及信息素计算子模块,用于根据所述相关性计算结果,利用相关性与信息素的对应关系更新所述当前数据的信息素,其中,与所述所需数据的相关性越高的数据对应的信息素越高。可选的,所述第三数据处理单元还包括:信息素全局更新模块,用于在完成一次迭代,选择出信息素高于所述设定阈值的数据之后,基于所选择出的数据的信息素更新全局信息素表,并将更新后的全局信息素表应用于下次迭代;以及第二选择模块,用于将相邻两次迭代得到的数据进行比较,选择出两者中信息素更高的数据,直到完成预定次数的迭代,以选择出最优数据。可选的,所述数据分析装置还包括:数据图谱建立单元,用于针对所述待分析数据建立数据图谱;其中,所述第三数据处理单元还用于在采用所述蚁群算法对所述待分析数据进行数据处理时,参考所述数据图谱确本文档来自技高网
...

【技术保护点】
1.一种数据分析方法,其特征在于,所述数据分析方法包括:/n确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围;/n根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围,设置所述待分析数据中应用数据处理的多个数据集;以及/n采用蚁群算法对所述每一个数据集进行数据处理,使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据,以从所述每一个数据集中选择出信息素高于设定阈值的数据,其中信息素越高的数据与预设的所需数据的相关性越高。/n

【技术特征摘要】
1.一种数据分析方法,其特征在于,所述数据分析方法包括:
确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围;
根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围,设置所述待分析数据中应用数据处理的多个数据集;以及
采用蚁群算法对所述每一个数据集进行数据处理,使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据,以从所述每一个数据集中选择出信息素高于设定阈值的数据,其中信息素越高的数据与预设的所需数据的相关性越高。


2.根据权利要求1所述的数据分析方法,其特征在于,所述采用所述蚁群算法对所述每一个数据集进行数据处理包括:
设置所述蚁群算法的初始化参数,其中所述初始化参数包括所述每一数据集中的数据编号、各数据的初始信息素、启发因子和期望因子,其中所述期望因子包括所述所需数据的信息;以及
使每只蚂蚁根据所述初始化参数选择数据以开始行走,根据所述初始信息素及所述启发因子计算每只蚂蚁在行走中从当前数据转移至下个数据的概率,并在每次发生数据转移时,计算所述当前数据与所述所需数据之间的相关性,并根据相关性计算结果更新所述当前数据的信息素,直到所有蚂蚁走完所述每一个数据集中的所有数据,完成一次迭代,选择出信息素高于所述设定阈值的数据。


3.根据权利要求2所述的数据分析方法,其特征在于,所述计算所述当前数据与所述所需数据之间的相关性,并根据相关性计算结果更新所述当前数据的信息素包括:
将所述当前数据对应的所述维度集和所述指标集与所述所需数据的数据头进行比对,以获得所述所需数据的数据头所包含的字段名称含有所述当前数据的所述维度集和所述指标集所占的百分比,将该百分比作为相关性计算结果;以及
根据所述相关性计算结果,利用相关性与信息素的对应关系更新所述当前数据的信息素,其中,与所述所需数据的相关性越高的数据对应的信息素越高。


4.根据权利要求2所述的数据分析方法,其特征在于,在所述采用所述蚁群算法对每一个数据集进行数据处理后,所述数据分析方法还包括:
在完成一次迭代,选择出信息素高于所述设定阈值的数据之后,基于所选择出的数据的信息素更新全局信息素表,并将更新后的全局信息素表应用于下次迭代;以及
将相邻两次迭代得到的数据进行比较,选择出两者中信息素更高的数据,直到完成预定次数的迭代,以选择出最优数据。


5.根据权利要求2所述的数据分析方法,其特征在于,所述数据分析方法还包括:
针对所述待分析数据建立数据图谱;以及
在采用所述蚁群算法对所述待分析数据进行数据处理时,参考所述数...

【专利技术属性】
技术研发人员:李毫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1