一种多源聚合结构的大数据分析方法和系统技术方案

技术编号:24853769 阅读:29 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开了一种多源聚合结构的大数据分析方法和系统,包括:采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;根据所述采样样本对所述对象进行特征分析。该方法将针对同一对象的多个数据源进行聚合,能够将针对目标对象的多个数据源中的有效数据进行合并,形成对目标特征进行分析的完整数据源,实用性强;并且通过采用自适应调整采样步长实现对大数据集中样本采集,减少了采样样本的计算量,降低了计算负荷,利用大数据集的采样样本快速准确地对目标对象的特征进行分析。

【技术实现步骤摘要】
一种多源聚合结构的大数据分析方法和系统
本专利技术涉及物联网
,具体是一种多源聚合结构的大数据分析方法和系统。
技术介绍
在智慧城市中广域分布的物联网环境下,加入物联网的传感器不断感知关于目标对象(例如一个建筑物、一个社区)的数据,这些数据可以汇编为数据集。利用数据集可以实现大数据分析,挖掘获得目标对象的特征。例如,针对一个建筑物,可以将传感器感知的温度、湿度、光照度、空气颗粒密度、能耗等内部环境数据,汇编为数据集,进而挖掘该建筑物内部环境变化特征,为建筑物内部的空调、通风、照明等方面的设施控制提供依据。并且,针对同一个对象,往往能够从多个数据源,分别获得针对该对象的多个数据集。例如,将建筑物中的传感器按照其类型或者安装位置划分为多个群组,每个群组作为一个数据源,将每个群组的数据汇编,可以提供针对同一个对象的多个数据集。然而,现有技术中,在广域分布的物联网针环境下,针对同一个对象的多个数据集中的数据过多,增加了计算负荷,无法快速准确地根据数据对对象的特征进行快速分析。因此,如何利用大数据对目标对象的特征进行高效分析的是本领域技术人员亟待解决的问题。
技术实现思路
鉴于上述问题,本专利技术的目的是解决目前针对同一个对象的多个数据集中的数据过多,增加了计算负荷,无法快速准确地根据数据对对象的特征进行快速分析的问题,实现了利用大数据对目标对象的特征的高效分析。本专利技术实施例提供一种多源聚合结构的大数据分析方法,包括:采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;根据所述采样样本对所述对象进行特征分析。在一个实施例中,采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集,包括:采集同一对象的多个数据源,对所述多个数据源进行预处理;根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表;根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。在一个实施例中,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集,包括:分别对所述多个数据源的属性进行规范化表示;基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合;将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度;根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。在一个实施例中,基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合,包括:将所述实体名称分解为二元模型序列;将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。在一个实施例中,利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本,包括:设置所述聚合大数据集的采样参数;利用所述聚合大数据集中CPU核心总数,设置采样范围长度与采样步长变化倍数;根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。第二方面,本专利技术还提供一种多源聚合结构的大数据分析系统,包括:聚合模块,用于采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;采集模块,用于利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;分析模块,用于根据所述采样样本对所述对象进行特征分析。在一个实施例中,所述聚合模块,包括:预处理子模块,用于采集同一对象的多个数据源,对所述多个数据源进行预处理;排序子模块,用于根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表;聚合子模块,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。在一个实施例中,所述聚合子模块,包括:规范化表示单元,用于分别对所述多个数据源的属性进行规范化表示;分块聚合单元,用于基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合;计算单元,将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度;生成单元,根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。在一个实施例中,所述分块聚合单元,包括:分解装置,用于将所述实体名称分解为二元模型序列;插入装置,用于将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;划分装置,用于将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;判断装置,用于若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。在一个实施例中,所述采集模块,包括:设置子模块,用于设置所述聚合大数据集的采样参数;利用子模块,用于利用所述聚合大数据集中CPU核心总数,采样范围长度与采样步长变化倍数;确定子模块,用于根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;执行子模块,用于根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;生成子模块,用于根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术实施例提供的一种多源聚合结构的大数据分析方法,本方法将针对同一对象的多个数据源进行聚合,能够将针对目标对象的多个数据源中的有效数据进行合并,形成对目标特征进行分析的完整数据源,实用性强;并且通过采用自适应调整采样步长实现对大数据集中样本采集,减少了采样样本的计算量,降低了计算负荷,利用大数据集的采样样本快速准确地对目标对象的特征进行分析。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附本文档来自技高网...

【技术保护点】
1.一种多源聚合结构的大数据分析方法,其特征在于,包括:/n采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;/n利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;/n根据所述采样样本对所述对象进行特征分析。/n

【技术特征摘要】
1.一种多源聚合结构的大数据分析方法,其特征在于,包括:
采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;
利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;
根据所述采样样本对所述对象进行特征分析。


2.如权利要求1所述的一种多源聚合结构的大数据分析方法,其特征在于,采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集,包括:
采集同一对象的多个数据源,对所述多个数据源进行预处理;
根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表;
根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。


3.如权利要求2所述的一种多源聚合结构的大数据分析方法,其特征在于,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集,包括:
分别对所述多个数据源的属性进行规范化表示;
基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合;
将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度;
根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。


4.如权利要求3所述的一种多源聚合结构的大数据分析方法,其特征在于,基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合,包括:
将所述实体名称分解为二元模型序列;
将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;
将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;
若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。


5.如权利要求1所述的一种多源聚合结构的大数据分析方法,其特征在于,利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本,包括:
设置所述聚合大数据集的采样参数;
利用所述聚合大数据集中CPU核心总数,设置采样范围长度与采样步长变化倍数;
根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;
根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;
根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。


6.一种多源聚合结构的大...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:重庆特斯联智慧科技股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1