【技术实现步骤摘要】
基于SCNBMF的智慧城市不完备数据的处理系统及方法
[0001]本专利技术是针对智慧城市中数据的挖掘技术,更特别地说,是指一种基于 SCNBMF的智慧城市不完备数据的处理系统及方法。所述SCNBMF方法是在矩阵分解中的奇异值分解方法上增加了负二项分布和自洽性。
技术介绍
[0002]随着智慧城市建设逐步由信息基础设施和应用系统建设迈入数据资产集约利用与运营管理阶段,城市大数据中心已成为智慧城市打造核心竞争力、提升政府管理效能的重要工具。一方面政府借助大数据中心建设可以将有限的信息基础设施资源集中高效管理和利用,大幅降低各自为政、运维机关庞杂、财政压力过大的问题;另一方面,可以在政策东风下,打破部门间数据壁垒,推动政府各部门职能由管理转为服务,提高数据共享利用率和透明度。以大数据中心为核心构建城市驾驶舱,实现城市运转过程的实时全面监控,提高政府决策的科学性和及时性。智慧城市大数据中心建设功能框架如图1所示,其中针对不同部门的数据源,由数据收集系统完成数据的汇聚,并根据数据业务类型和内容的差异进行粗分类。为避免过多“脏数据”对 ...
【技术保护点】
【技术特征摘要】
1.一种基于SCNBMF的智慧城市不完备数据的处理系统,基于SCNBMF的智慧城市不完备数据的处理系统是安装在数据管理系统与大数据挖掘与分析系统之间的;其特征在于:基于SCNBMF的智慧城市不完备数据的处理系统,包括有项目-特征矩阵模块、特征关系矩阵模块、不完备矩阵预填充模块和基于负二项分布的填充模型的构建与计算模块;区域-特征矩阵模块,第一方面从数据管理系统中获取结构化关联数据集合MID={DD1,DD2,
…
,DD
d
,
…
,DD
D
};DD1表示第1个结构化关联数据;DD2表示第2个结构化关联数据;DD
d
表示第d个结构化关联数据;DD
D
表示最后一个结构化关联数据;区域-特征矩阵模块,第二方面依据项目与特征的分类,建立一个区域-特征矩阵记为A=[x
i,j
]
M
×
N
;其中,x
i,j
表示所述A=[x
i,j
]
M
×
N
的任意一个元素,所述元素x
i,j
用于放置MID={DD1,DD2,
…
,DD
d
,
…
,DD
D
}中的任意一个结构化关联数据;下角标i表示所述A=[x
i,j
]
M
×
N
的行号标识,所述A=[x
i,j
]
M
×
N
的最大行数记为M;下角标j表示所述A=[x
i,j
]
M
×
N
的列号标识,所述A=[x
i,j
]
M
×
N
的最大列数记为N;其中,所述区域-特征矩阵A=[x
i,j
]
M
×
N
中的特征是指该区域中的统计信息;特征关系矩阵模块根据区域-特征矩阵A=[x
i,j
]
M
×
N
的大小构建出以特征信息关联的对数特征关系矩阵对所述中的元素进行初始时的赋值为中的元素进行初始时的赋值为经初始赋值后,则有初始的对数特征关系矩阵记为所述γ=[b
p,q
]
M
×
M
中的b
p,q
在计算过程中的取值处于区间[0,1]中,避免了出现过大或过小的特征关系权重,起到了特征关系权重的标准化作用;依据初始后的能够确认得到初始时γ=[b
p,q
]
M
×
M
中的元素b
p,q
的取值,为所述b
p,q
应用所述A=[x
i,j
]
M
×
N
中的每一个特征都可以由除自身外所有其他特征的加权和表示,且初始时默认所有的特征的关系权重相同;不完备矩阵预填充模块,第一方面根据所述A=[x
i,j
]
M
×
N
与所述γ=[b
p,q
]
M
×
M
建立从一阶自洽性至n阶自洽性的SC模型;不完备矩阵预填充模块,第二方面根据所述SC1到所述SC
n
,得到基于自洽性的预填充模型SSC为其中是正则化项,λ0是正则化项的系数;λ1是一阶自洽性填充模型的系数;λ2是二阶自洽性填充模型的系数;
λ
n
是n阶自洽性填充模型的系数;一般地,最大阶数n的取值为2、3或4;不完备矩阵预填充模块,第三方面在SSC模型中运用梯度下降法来迭代更新γ
对数
和γ;在t次迭代的对数特征关系矩阵记为在t
‑
1次迭代的对数特征关系矩阵记为在t+1次迭代的对数特征关系矩阵记为所述均由通过梯度下降法进行更新;
“⊙”
为哈达玛积计算符;η表示梯度下降更新步长;其中A
T
是A的转置;其中I是主对角线为1的单位矩阵,且矩阵大小为M
×
M;每次迭代进行的标准特征关系矩阵γ更新为迭代更新操作来对SSC模型进行收敛,完成收敛后,则使用γ
t
对A进行预填充,得到A
预填充
=γ
t
·
A,A
预填充
是经过预填充后的区域-特征矩阵;第一方面,根据A
预填充
和A来构建基于负二项分布的矩阵分解填充模型(简称为NBMF模型);将所述A
预填充
赋值给NBMF模型,并作为初始时的均值;第二方面,基于负二项分布的填充计算;对于所述A中的元素x
i,j
,元素x
i,j
取值符合一个负二项分布,则有x
i,j
~NB(α
i,j
,β
i,j
);由于负二项分布可以被分解为泊松分布和伽马分布的混合分布;因此x
i,j
符合分布x
i,j
~Possion(Gamma(α
i,j
,β
i,j
));伽马分布的均值记为伽马分布的方差记为2.一种基于SCNBMF的智慧城市不完备数据的处理方法,其特征在于有下列步骤:步骤一,构建区域-特征矩阵;将结构化关联数据集合MID={DD1,DD2,
…
,DD
d
,
…
,DD
D
}中的各个元素构建出一个以区域与特征关联的二维矩阵,即区域-特征矩阵记为A,且A=[x
i,j
]
M
×
N
;其中,x
i,j
表示所述A=[x
i,j
]
M
×
N
的任意一个元素,所述元素x
i,j
用于放置MID={DD1,DD2,
…
,DD
d
,
…
,DD
D
}中的任意一个结构化关联数据;下角标i表示所述A=[x
i,j
]
M
×
N
的行号标识,所述A=[x
i,j
]
M
×
N
的最大行数记为M;下角标j表示所述A=[x
i,j
]
M
×
N
的列号标识,所述A=[x
i,j
]
M
×
N
的最大列数记为N;其中,所述区域-特征矩阵A=[x
i,j
]
M
×
N
中的特征是指该区域中的统计信息;DD1表示第1个结构化关联数据;DD2表示第2个结构化关联数据;DD
d
表示第d个结构化关联数据;
DD
D
表示最后一个结构化关联数据;步骤二,构建特征关系矩阵;对数特征关系矩阵记为γ
对数
,且,且表示中的任意一个特征关系权重元素;标准特征关系矩阵记为γ,且以元素形式表征时为γ=[b
p,q
]
M
×
M
,对所述应用sigmoid函数得到下角标p和下角标q分别为A=[x
i,j
]
M
×
N
中的第p行特征、第q行特征;所述的b
p,q
为A=[x
i,j
]
M
×
N
中第p行特征与第q行特征的特征关系权重;根据区域-特征矩阵A=[x
i,j
]
M
×
N
的大小构建出以特征信息关联的对数特征关系矩阵对所述中的元素进行初始时的赋值,为:inf代表无穷;经初始赋值后,则有初始的对数特征关系矩阵记为所述γ=[b
p,q
]
M
×
M
中的b
p,q
在计算过程中的取值处于区间[0,1]中,避免了出现过大或过小的特征关系权重,起到了特征关系权重的标准化作用;根据公式(1)能够确认初始时γ=[b
p,q
]
M
×
M
中的元素b
p,q
的取值,为:所述b
p,q
应用所述A=[x
i,j
]
M
×
N
中的每一个特征都可以由除自身外所有其他特征的加权和表示,且初始时默认所有的特征的关系权重相同;步骤三,构建基于自洽性的不完备矩阵预填充模型;根据所述A=[x
i,j
]
M
×
N
与所述γ=[b
p,q
]
M
×
M
建立不同阶数的SC模型;标准特征关系矩阵γ的一阶自洽性,该性质可以表示为:其中下角标F表示Frobenius范数;根据一阶自洽性进阶得到二阶自洽性为进而得到n阶自洽性为上角标n表示阶数标识,n
‑
1阶数是位于n阶数之前的阶数...
【专利技术属性】
技术研发人员:蒲菊华,王秉宸,丁奇思,王元宏,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。