本发明专利技术公开了一种基于模式分析的矩阵填充方法及装置,其中,方法包括以下步骤:根据原始数据建立数据矩阵;确定基本模式数量,并对数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过归一化后的模式矩阵更新系数矩阵,以获取数据分类后的矩阵;将分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,然后将恢复后的矩阵重新排列成初始形状。该方法能够在相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。
Matrix filling method and device based on pattern analysis
【技术实现步骤摘要】
基于模式分析的矩阵填充方法及装置
本专利技术涉及数据处理
,特别涉及一种基于模式分析的矩阵填充方法及装置。
技术介绍
信息时代人们对海量数据分析挖掘的需求日益增长。现实生活中人们往往只能采样或观测到一部分数据信息,其他信息由于各种原因(例如采样成本或设备故障等)丢失或空缺。当收集到的数据不完整时,将会导致后续对数据的利用达不到预期效果,例如,传感器测量空气质量时,可能因为部分传感器故障导致某个位置某一时刻的数据丢失,研究该时刻的总体空气质量就会出现问题。再例如,出租车轨迹数据可能因为某个地点信号不佳出现数据丢失,这会导致对该路段的车流量统计变得不准确。因此,数据信息的恢复对生产生活十分重要。根据采集到的部分已知信息有效填充缺失项,从而得到较为完整和准确的信息供使用者做出分析和决策。然而,目前恢复数据过程中数据相关性利用往往不够充分,数据恢复效果较差,亟待解决。
技术实现思路
本申请是基于专利技术人对以下问题的认识和发现做出的:本专利技术解决的问题是:恢复数据过程中数据相关性利用不充分的问题。目前,采用矩阵填充技术可以进行缺失数据的恢复,在矩阵填充中,为了能精确重建数据,原始矩阵的低秩性是矩阵填充的必要条件。然而,研究表明,数据的某些相似特性(如周期性、空间相关性等)是影响数据恢复性能的一个因素,因此如何挖掘并利用数据中隐含的相似性是矩阵填充研究需要解决的问题。本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于模式分析的矩阵填充方法,该方法能够在相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。本专利技术的另一个目的在于提出一种基于模式分析的矩阵填充装置。为达到上述目的,本专利技术一方面实施例提出了一种基于模式分析的矩阵填充方法,包括以下步骤:根据原始数据建立数据矩阵;确定基本模式数量,并对所述数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩阵;将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,然后将恢复后的矩阵重新排列成初始形状。本专利技术实施例的基于模式分析的矩阵填充方法,在进行矩阵填充前,使用模式分析方法从原始数据中提取出基本模式,从而对原始数据进行归类,高效发掘出数据的相似性,并在此基础上对矩阵进行重排,之后再对数据进行填充,能够在相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。另外,根据本专利技术上述实施例的基于模式分析的矩阵填充方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,矩阵的更新公式为:其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模式矩阵的转置。进一步地,在本专利技术的一个实施例中,归一化的目标函数及其约束公式为:其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,为第d天基本模式矩阵中第r个模式所对应的系数向量,为第d天第r个模式所对应的数值向量,n为天数,为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’实际都表示天数,为第d天第r个模式第h个位置的模式数值。进一步地,在本专利技术的一个实施例中,用所述归一化后的模式矩阵更新的最优问题为:其中,{·}t代表向量中第t个元素,为第d天原始数据矩阵第i个位置第.个时间段内的数值,为第d天第i个位置的第.个模式的系数,表示模式矩阵归一化之后的值,s.t.指subjectto,表示受制于某条件,为第d天第i个位置的第1个模式的系数,为第d天第i个位置的第2个模式的系数,为第d天第i个位置的第3个模式的系数,为第d天第i个位置的第4个模式的系数。进一步地,在本专利技术的一个实施例中,所述将所述分类后的矩阵进行重新排列,包括:计算重排后的方阵行列数计算子矩阵的行数目计算原始矩阵分割的矩阵数目分割所述原始矩阵成多个小矩阵,其中,若最后一个子矩阵不足n′行,通过空行补足,使行数目为n′;通过集成子矩阵建立重排矩阵X′。为达到上述目的,本专利技术另一方面实施例提出了一种基于模式分析的矩阵填充装置,包括:建立模块,用于根据原始数据建立数据矩阵;分析模块,用于确定基本模式数量,并对所述数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩阵;处理模块,用于将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,以将恢复后的矩阵重新排列成初始形状。本专利技术实施例的基于模式分析的矩阵填充装置,在进行矩阵填充前,使用模式分析方法从原始数据中提取出基本模式,从而对原始数据进行归类,高效发掘出数据的相似性,并在此基础上对矩阵进行重排,之后再对数据进行填充,能够在相同的采样率下提高数据恢复的准确性,减少恢复矩阵填充所需时间,达到更好的恢复效果,简单易实现。另外,根据本专利技术上述实施例的基于模式分析的矩阵填充装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,矩阵的更新公式为:其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模式矩阵的转置。进一步地,在本专利技术的一个实施例中,归一化的目标函数及其约束公式为:其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,为第d天基本模式矩阵中第r个模式所对应的系数向量,为第d天第r个模式所对应的数值向量,n为天数,为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’均表示天数,为第d天第r个模式第h个位置的模式数值。进一步地,在本专利技术的一个实施例中,用所述归一化后的模式矩阵更新的最优问题为:其中,{·}t代表向量中第t个元素,为第d天原始数据矩阵第i个位置第.个时间段内的数值,为第d天第i个位置的第.个模式的系数,表示模式矩阵归一化之后的值,s.t.指subjectto,表示受制于某条件,为第d天第i个位置的第1个模式的系数,为第d天第i个位置的第2个模式的系数,为第d天第i个位置的第3个模式的系数,为第d天第i个位置的第4个模式的系数。进一步地,在本专利技术的一个实施例中,所述处理模块进一步用于:计算重排后的方阵行列数计算子矩阵的行数目计算原始矩阵分割的矩阵数目本文档来自技高网...
【技术保护点】
1.一种基于模式分析的矩阵填充方法,其特征在于,包括以下步骤:/n根据原始数据建立数据矩阵;/n确定基本模式数量,并对所述数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩阵;/n将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,以将恢复后的矩阵重新排列成初始形状。/n
【技术特征摘要】
1.一种基于模式分析的矩阵填充方法,其特征在于,包括以下步骤:
根据原始数据建立数据矩阵;
确定基本模式数量,并对所述数据矩阵进行非负矩阵分解,得到系数矩阵和模式矩阵,且对所述模式矩阵归一化处理,得到归一化后的模式矩阵,并且通过所述归一化后的模式矩阵更新所述系数矩阵,以获取数据分类后的矩阵;
将所述分类后的矩阵进行重新排列,且使用矩阵填充算法恢复排列后的矩阵,以将恢复后的矩阵重新排列成初始形状。
2.根据权利要求1所述的方法,其特征在于,矩阵的更新公式为:
其中,V为原始数据矩阵,C为系数矩阵,Cik表示第i个位置对应第k个模式的系数,CT为系数矩阵的转置,P为模式矩阵,Pkj表示第k种模式中第j个时间段的数值,PT为模式矩阵的转置。
3.根据权利要求1所述的方法,其特征在于,归一化的目标函数及其约束公式为:
其中,vard(·)表示d天数据的方差,avgd(·)表示d天数据的平均值,为第d天基本模式矩阵中第r个模式所对应的系数向量,为第d天第r个模式所对应的数值向量,n为天数,为第d天第r个模式对应的系数,d’是为了在公式中区分两次不同的累加,d和d’均表示天数,为第d天第r个模式第h个位置的模式数值。
4.根据权利要求1所述的方法,其特征在于,用所述归一化后的模式矩阵更新的最优问题为:
其中,{·}t代表向量中第t个元素,为第d天原始数据矩阵第i个位置第.个时间段内的数值,为第d天第i个位置的第.个模式的系数,表示模式矩阵归一化之后的值,s.t.指subjectto,表示受制于某条件,为第d天第i个位置的第1个模式的系数,为第d天第i个位置的第2个模式的系数,为第d天第i个位置的第3个模式的系数,为第d天第i个位置的第4个模式的系数。
5.根据权利要求1所述的方法,其特征在于,所述将所述分类后的矩阵进行重新排列,包括:
计算重排后的方阵行列数
计算子矩阵的行数目
计算原始矩阵分割的矩阵数目
分割所述原始矩阵成多个小矩阵,其中,若最后一个子矩阵不足n′行,通过空行补足,使行数目为n′;
通过集成子矩阵建立重排矩阵X′。
【专利技术属性】
技术研发人员:唐晓岚,鲁思远,陈文龙,郝子丰,周丽娟,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。