一种基于CIM的海量数据分析方法及系统技术方案

技术编号:30040436 阅读:14 留言:0更新日期:2021-09-15 10:39
本发明专利技术提供一种基于CIM的海量数据分析方法及系统,其中方法包括:构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;对待处理数据进行归类分组,获得多个分组数据;将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。本发明专利技术的基于CIM的海量数据分析方法,以实现从海量数据中提取CIM所需的数据,并基于该数据确定CIM中的参数,实现CIM的实时更新。新。新。

【技术实现步骤摘要】
一种基于CIM的海量数据分析方法及系统


[0001]本专利技术涉及数据分析
,特别涉及一种基于CIM的海量数据分析方法及系统。

技术介绍

[0002]目前,CIM(城市信息模型)是以建筑信息模型(BIM)、地理信息系统(GIS)、物联网(IoT)等技术为基础,整合城市地上地下、室内室外、历史现状未来多维多尺度信息模型数据和城市感知数据,构建起三维数字空间的城市信息有机综合体。每时每刻城市中产生的数据都是海量的,如何对海量数据进行分析获得CIM所需要的数据是亟需解决的技术问题。

技术实现思路

[0003]本专利技术目的之一在于提供了一种基于CIM的海量数据分析方法,以实现从海量数据中提取CIM所需的数据,并基于该数据确定CIM中的参数,实现CIM的实时更新。
[0004]本专利技术实施例提供的一种基于CIM的海量数据分析方法,包括:
[0005]构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;
[0006]对待处理数据进行归类分组,获得多个分组数据;
[0007]将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
[0008]优选的,构建对应CIM的数据筛选库,包括:
[0009]获取CIM的历史的输入数据;
[0010]对输入数据进行归类,获取多个数据筛选组;
[0011]对数据筛选组中的输入数据进行特征提取,获得多个特征值;
[0012]基于提取的特征值确定数据筛选组的筛选关键特征。
[0013]优选的,基于提取的特征值确定数据筛选组的筛选关键特征,包括:
[0014]提取数据筛选组中输入数据的特征值的值都相同的特征值,作为筛选关键特征中的第一类筛选项,并赋予第一权重;
[0015]提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,作为筛选关键特征中的第二类筛选项,并赋予第二权重;
[0016]提取数据筛选组中输入数据的特征值的值不相同且差值超出预设的阈值范围内的特征值,作为筛选关键特征中的第三类筛选项,并赋予第三权重;
[0017]其中,第一权重大于第二权重和第三权重;第二权重大于第三权重。
[0018]优选的,基于数据筛选库对海量数据进行筛选,获取待处理数据;包括:
[0019]对海量数据中的待筛选数据进行特征,获取特征矩阵;
[0020]基于特征矩阵分别与筛选关键特征中的第一类筛选项、第二类筛选项和第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;
[0021]基于第一匹配数目、第二匹配数目、第三匹配数目、第一权重、第二权重和第三权重,确定匹配值,计算公式如下:
[0022][0023]其中,P为匹配值;M
1i
为特征矩阵与第一类筛选项中第i个筛选数据的第一匹配度;M
2j
为特征矩阵与第二类筛选项中第j个筛选数据的第二匹配度;M
3k
为特征矩阵与第三类筛选项中第k个筛选数据的第三匹配度;α1、α2、α3分别为第一权重、第二权重、第三权重;n为第一类筛选项中的数据总数;m为第二类筛选项中的数据总数;N为第三类筛选项中的数据总数;
[0024]当匹配值大于预设的匹配阈值时,将待筛选数据作为待处理数据。
[0025]优选的,对待处理数据进行归类分组,获得多个分组数据;包括:
[0026]获取预设的分组关键词表,
[0027]基于分组关键词表对待处理数据进行归类分组;
[0028]基于CIM的海量数据分析方法,还包括:
[0029]将经过归类分组未能确定其归属的待处理数据存储至待归类数据库;
[0030]当待归类数据库中的数据量大于预设的数据阈值时,计算待归类数据库中两两待处理数据的相似度,相似度计算公式如下:
[0031][0032]其中,D
x,y
为待归类数据库中第x个待处理数据和第y个待处理数据之间的相似度;x
l
为第x个待处理数据经过特征提取后的第l个特征值;y
l
为第y个待处理数据经过特征提取后的第l个特征值;L为待处理数据经过特征提取后提取的特征值的总数;p为预设常数;
[0033]基于相似度对待归类数据库中的待处理数据进行分组,各个分组中的待处理数据之间的相似度大于预设的分组阈值;
[0034]确定各个分组中的待处理数据的数量,当各个分组中的待处理数据的数量大于验证阈值时,将该分组的待处理数据进行打包为验证包,并将验证包发送至多个验证终端;
[0035]接收验证终端的反馈信息;
[0036]解析反馈信息,确定验证包的处理方案;
[0037]当处理方案为进行分组时,确定验证包对应的分组类别及分组关键词;
[0038]并将该分组类别及分组关键词添加进分组关键词表;
[0039]当处理方案为剔除时,基于验证包构建剔除数据库,在应用数据筛选库对海量数据进行筛选后,采用剔除数据库对待处理数据进行剔除。
[0040]优选的,解析反馈信息,确定验证包的处理方案,包括:
[0041]解析反馈信息,确定处理方案的个数;
[0042]当处理方案的个数不为一时,确定各个处理方案的可信度,可信度计算公式如下:
[0043][0044]其中,KS为可信度;δ
d
为预设的支持处理方案的验证终端的置信值;ε
d
为预设的支持处理方案的验证终端的预设权重;D为支持处理方案的验证终端的总数;
[0045]将可信度最大的处理方案作为验证包的处理方案。
[0046]本专利技术还提供一种基于CIM的海量数据分析系统,包括:
[0047]筛选模块,用于构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;
[0048]分组模块,用于对待处理数据进行归类分组,获得多个分组数据;
[0049]确定模块,用于将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
[0050]优选的,筛选模块执行如下操作:
[0051]获取CIM的历史的输入数据;
[0052]对输入数据进行归类,获取多个数据筛选组;
[0053]对数据筛选组中的输入数据进行特征提取,获得多个特征值;
[0054]基于提取的特征值确定数据筛选组的筛选关键特征。
[0055]优选的,基于提取的特征值确定数据筛选组的筛选关键特征,包括:
[0056]提取数据筛选组中输入数据的特征值的值都相同的特征值,作为筛选关键特征中的第一类筛选项,并赋予第一权重;
[0057]提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,作为筛选关键特征中的第二类筛选项,并赋予第二权重;
[0058]提取数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CIM的海量数据分析方法,其特征在于,包括:构建对应CIM的数据筛选库,基于所述数据筛选库对海量数据进行筛选,获取待处理数据;对所述待处理数据进行归类分组,获得多个分组数据;将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。2.如权利要求1所述的基于CIM的海量数据分析方法,其特征在于,所述构建对应CIM的数据筛选库,包括:获取CIM的历史的输入数据;对所述输入数据进行归类,获取多个数据筛选组;对所述数据筛选组中的所述输入数据进行特征提取,获得多个特征值;基于提取的所述特征值确定所述数据筛选组的筛选关键特征。3.如权利要求2所述的基于CIM的海量数据分析方法,其特征在于,所述基于提取的所述特征值确定所述数据筛选组的筛选关键特征,包括:提取所述数据筛选组中所述输入数据的所述特征值的值都相同的所述特征值,作为所述筛选关键特征中的第一类筛选项,并赋予第一权重;提取所述数据筛选组中所述输入数据的所述特征值的值不相同但是差值在预设的阈值范围内的所述特征值,作为所述筛选关键特征中的第二类筛选项,并赋予第二权重;提取所述数据筛选组中所述输入数据的所述特征值的值不相同且差值超出预设的阈值范围内的所述特征值,作为所述筛选关键特征中的第三类筛选项,并赋予第三权重;其中,所述第一权重大于所述第二权重和所述第三权重;所述第二权重大于所述第三权重。4.如权利要求3所述的基于CIM的海量数据分析方法,其特征在于,所述基于所述数据筛选库对海量数据进行筛选,获取待处理数据;包括:对所述海量数据中的待筛选数据进行特征,获取特征矩阵;基于所述特征矩阵分别与所述筛选关键特征中的第一类筛选项、所述第二类筛选项和所述第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;基于第一匹配数目、第二匹配数目、第三匹配数目、所述第一权重、所述第二权重和所述第三权重,确定匹配值,计算公式如下:其中,P为所述匹配值;M
1i
为所述特征矩阵与所述第一类筛选项中第i个筛选数据的所述第一匹配度;M
2j
为所述特征矩阵与所述第二类筛选项中第j个筛选数据的所述第二匹配度;M
3k
为所述特征矩阵与所述第三类筛选项中第k个筛选数据的所述第三匹配度;α1、α2、α3分别为所述第一权重、所述第二权重、所述第三权重;n为所述第一类筛选项中的数据总数;m为所述第二类筛选项中的数据总数;N为所述第三类筛选项中的数据总数;当所述匹配值大于预设的匹配阈值时,将所述待筛选数据作为所述待处理数据。5.如权利要求1所述的基于CIM的海量数据分析方法,其特征在于,所述对所述待处理数据进行归类分组,获得多个分组数据;包括:
获取预设的分组关键词表,基于所述分组关键词表对所述待处理数据进行归类分组;所述基于CIM的海量数据分析方法,还包括:将经过归类分组未能确定其归属的所述待处理数据存储至待归类数据库;当所述待归类数据库中的数据量大于预设的数据阈值时,计算所述待归类数据库中两两所述待处理数据的相似度,相似度计算公式如下:其中,D
x,y
为所述待归类数据库中第x个所述待处理数据和第y个所述待处理数据之间的相似度;x
l
为所述第x个所述待处理数据经过特征提取后的第l个特征值;y
l
为所述第y个所述待处理数据经过特征提取后的第l个特征值;L为所述待处理数据经过特征提取后提取的特征值的总数;p为预设常数;基于所述相似度对所述待归类数据库中的所述待处理数据进行分组,各个分组中的所述待处理数据之间的相似度大于预设的分组阈值;确定各个分组中的待处理数据的数量,当各个分组中...

【专利技术属性】
技术研发人员:季顺海
申请(专利权)人:江苏星月测绘科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1