数据分析方法及装置制造方法及图纸

技术编号：24331892 阅读：28 留言：0更新日期：2020-05-29 20:01

本发明专利技术实施例提供一种针对海量无规则数据的数据分析方法及装置，属于数据分析领域。所述数据分析方法包括：确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围；根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围，设置所述待分析数据中应用数据处理的多个数据集；以及采用蚁群算法对所述每一个数据集进行数据处理，使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据，以从所述每一个数据集中选择出信息素高于设定阈值的数据，其中信息素越高的数据与预设的所需数据的相关性越高。本发明专利技术能够从海量无规则数据中选择出最优数据，避免了有价值的数据被丢弃。

Data analysis method and device

全部详细技术资料下载

【技术实现步骤摘要】
数据分析方法及装置
本专利技术涉及数据分析领域，具体地涉及一种数据分析方法及装置。
技术介绍
目前，在许多数据应用领域都存在海量杂乱无序无规则数据(以下简称为海量无规则数据)，例如内容营销。内容营销是指以图片、文字、动画等等介质传达有关企业的相关内容来给客户信息，促进销售，就是通过合理的内容创建、发布及传播，向用户传递有价值的信息，从而实现网络营销的目的。根据内容营销的定义，可知其存在一种需求，即是需要从海量无规则数据中抽取满足需求的数据，进行展示和/或营销。举例而言，在利用手机进行内容营销时，需要通过用户手机操作记录等获取用户生活和工作的各个方面的数据，比如性格偏向、投资偏向、穿着偏向、工作专业、情感特征、体貌特征、个人好恶等等，最后通过数据分析来对用户画像，进行个性化的内容营销，满足用户个性化需求。但是，这里涉及的用户数据没有规律性，且每天单个用户产生的数据杂乱而繁多。因此，如果内容营销面向的用户量基础很大，就会产生海量无规则数据。对于这些海量无规则数据，现有技术是通过数据模型化方案来进行处理，即是先通过创建的数...

【技术保护点】
1.一种数据分析方法，其特征在于，所述数据分析方法包括：/n确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围；/n根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围，设置所述待分析数据中应用数据处理的多个数据集；以及/n采用蚁群算法对所述每一个数据集进行数据处理，使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据，以从所述每一个数据集中选择出信息素高于设定阈值的数据，其中信息素越高的数据与预设的所需数据的相关性越高。/n

【技术特征摘要】
1.一种数据分析方法，其特征在于，所述数据分析方法包括：
确定待分析数据的维度集、与所述维度集相对应的指标集以及数据特征限制范围；
根据所述待分析数据的所述维度集、所述指标集和所述数据特征限定范围，设置所述待分析数据中应用数据处理的多个数据集；以及
采用蚁群算法对所述每一个数据集进行数据处理，使蚁群中的每只蚂蚁走完所述每一个数据集中的所有数据，以从所述每一个数据集中选择出信息素高于设定阈值的数据，其中信息素越高的数据与预设的所需数据的相关性越高。

2.根据权利要求1所述的数据分析方法，其特征在于，所述采用所述蚁群算法对所述每一个数据集进行数据处理包括：
设置所述蚁群算法的初始化参数，其中所述初始化参数包括所述每一数据集中的数据编号、各数据的初始信息素、启发因子和期望因子，其中所述期望因子包括所述所需数据的信息；以及
使每只蚂蚁根据所述初始化参数选择数据以开始行走，根据所述初始信息素及所述启发因子计算每只蚂蚁在行走中从当前数据转移至下个数据的概率，并在每次发生数据转移时，计算所述当前数据与所述所需数据之间的相关性，并根据相关性计算结果更新所述当前数据的信息素，直到所有蚂蚁走完所述每一个数据集中的所有数据，完成一次迭代，选择出信息素高于所述设定阈值的数据。

3.根据权利要求2所述的数据分析方法，其特征在于，所述计算所述当前数据与所述所需数据之间的相关性，并根据相关性计算结果更新所述当前数据的信息素包括：
将所述当前数据对应的所述维度集和所述指标集与所述所需数据的数据头进行比对，以获得所述所需数据的数据头所包含的字段名称含有所述当前数据的所述维度集和所述指标集所占的百分比，将该百分比作为相关性计算结果；以及
根据所述相关性计算结果，利用相关性与信息素的对应关系更新所述当前数据的信息素，其中，与所述所需数据的相关性越高的数据对应的信息素越高。

4.根据权利要求2所述的数据分析方法，其特征在于，在所述采用所述蚁群算法对每一个数据集进行数据处理后，所述数据分析方法还包括：
在完成一次迭代，选择出信息素高于所述设定阈值的数据之后，基于所选择出的数据的信息素更新全局信息素表，并将更新后的全局信息素表应用于下次迭代；以及
将相邻两次迭代得到的数据进行比较，选择出两者中信息素更高的数据，直到完成预定次数的迭代，以选择出最优数据。

5.根据权利要求2所述的数据分析方法，其特征在于，所述数据分析方法还包括：
针对所述待分析数据建立数据图谱；以及
在采用所述蚁群算法对所述待分析数据进行数据处理时，参考所述数...

【专利技术属性】
技术研发人员：李毫，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人