一种布尔型数据特征增量更新方法及装置制造方法及图纸

技术编号:24331424 阅读:138 留言:0更新日期:2020-05-29 19:45
本发明专利技术公开了一种布尔型数据特征增量更新方法及装置,其中方法包括:获取原始张量和新增张量;根据所述原始张量,获得所述原始张量的R个原始因子矩阵;根据所述新增张量,获得所述新增张量的第K阶对应的多个子张量;根据所述R个原始因子矩阵与第K阶对应的所述多个子张量,获得增量阶因子矩阵;根据所述增量阶因子矩阵以及所述原始因子矩阵对所述新增张量的第M阶的新增因子矩阵进行更新,获得第M阶更新后的新增因子矩阵;将第M阶的所述原始因子矩阵和第M阶对应的所述新增因子矩阵进行特征融合,获得第M阶的更新因子矩阵。本发明专利技术解决了目前对于流式布尔型数据更新时产生的大规模重复计算,大量耗费计算资源,计算效率低下的问题。

An incremental updating method and device for Boolean data features

【技术实现步骤摘要】
一种布尔型数据特征增量更新方法及装置
本专利技术涉及数据挖掘
,尤其涉及一种布尔型数据特征增量更新方法及装置。
技术介绍
随着信息时代到大数据时代的发展,大量的传感设备、社交媒体等的产生的数据呈现出海量、多维以及异构等特点,现有的数据处理方法往往是在数据预处理阶段将多维数据组织成向量的形式进行分析,这不仅破坏了数据的原始结构,而且也带来了数据向量化表示的维度灾难。而采用张量对高维数据进行表示既能保持复杂数据类型的内在结构又可以有效的提取核心数据。对此,基于张量分解的多维数据处理与分析方法正成广泛的研究热点。目前张量在数据表示与融合、多模态推荐、聚类及预测、深度计算等方面已有高效的并行式、增量式、安全的理论与算法支撑。由于对基因数据、关系数据、时空数据等具有良好的表示及分析处理能力,布尔张量在生物数据分析、知识发现、信息提取、多模态聚类等方面具有广泛的应用。但是布尔张量分解限制其输入输出数据为布尔类型,所以无限制的增量式分解算法在布尔张量分解中不具有适用性。因此,一种数据处理方法来解决现有技术方案在流式环境下对原始数据进行更新处理时产生的大规模重复计算,大量耗费时间以及计算资源,计算效率低下的问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种布尔型数据特征增量更新方法及装置,解决了目前对于流式布尔型数据更新时产生的大规模重复计算,大量耗费时间以及计算资源,计算效率低下的问题。第一方面,本申请通过本申请的一实施例提供如下技术方案:一种布尔型数据特征增量更新方法,包括:获取原始张量和新增张量;其中,所述原始张量由原始的布尔型数据构建,所述新增张量由新增的布尔型数据构建;根据所述原始张量,获得所述原始张量的R个原始因子矩阵;其中,R为所述原始张量的秩;根据所述新增张量,获得所述新增张量的第K阶对应的多个子张量;其中,K为小于等于N的正整数,N为所述原始张量的维数;根据所述R个原始因子矩阵与第K阶对应的所述多个子张量,获得增量阶因子矩阵;其中,所述第K阶为增量阶;根据所述增量阶因子矩阵以及所述原始因子矩阵对所述新增张量的第M阶的新增因子矩阵进行更新,获得第M阶更新后的新增因子矩阵;其中,M为小于等于N且不为K的正整数;将第M阶的所述原始因子矩阵和第M阶对应的所述新增因子矩阵进行特征融合,获得第M阶的更新因子矩阵;其中,所述更新因子矩阵用于获得所述布尔型数据更新后的张量分解。优选地,所述根据所述R个原始因子矩阵与第K阶对应的所述多个子张量,获得增量阶因子矩阵,包括:根据所述R个原始因子矩阵,获取第K阶对应的第一张量特征;根据所述多个子张量与所述第一张量特征的相似性,确定增量阶因子矩阵中每个位置的元素值;其中,所述相似性由所述第一张量特征与对应的所述子张量中的元素值相同的数量确定。优选地,所述根据所述多个子张量与所述第一张量特征的相似性,确定增量阶因子矩阵中每个位置的元素值,包括:若第一张量特征被第一子张量包含,则确定第K阶的所述增量阶因子矩阵中与所述第一子张量对应的位置的元素值为1;其中,所述包含为所述第一张量特征中元素为1的位置在对应的所述第一子张量中的元素也为1,所述子张量包括第一子张量和第二子张量;若第一张量特征中的元素值与所述第二子张量元素值之间的覆盖与过覆盖相同,则确定第K阶的所述增量阶因子矩阵中与所述第二子张量对应的位置的元素值为1;其中,所述覆盖为所述第一张量特征中元素为1的位置在对应的所述第二子张量中的元素也为1,所述过覆盖为所述第一张量特征中元素为1的位置在对应的所述第二子张量中的元素为0;将第K阶的所述增量阶因子矩阵中未确定的元素位置,确定元素值为0。优选地,所述第K阶对应的所述第一张量特征的获取,包括:将除第K阶对应的向量之外的其他向量的外积,作为第K阶对应的所述第一张量特征。优选地,所述根据所述增量阶因子矩阵以及所述原始因子矩阵对所述新增张量的第M阶的新增因子矩阵进行更新,获得第M阶更新后的新增因子矩阵,包括:将第M阶的原始因子矩阵的每列元素,作为第M阶对应的一个第二张量特征;根据每个所述第二张量特征中的元素值为1的数量,确定该第二张量特征对所述更新因子矩阵的影响;若所述第二张量特征使得所述更新因子矩阵的误差降低,则确定第M阶的所述新增因子矩阵对应于所述第二张量特征的位置元素值为1;否则,确定第M阶的所述新增因子矩阵对应于所述第二张量特征的位置元素值为0。优选地,所述将第M阶的所述原始因子矩阵和第M阶对应的所述新增因子矩阵进行特征融合,获得第M阶的更新因子矩阵,包括:根据所述R个原始因子矩阵,获取第M阶对应的第三张量特征;根据R个所述新增因子矩阵,获取第M阶对应的第四张量特征;当所述第三张量特征与所述第四张量特征中的元素值均相同时,将所述第三张量特征与所述第四张量特征进行合取,获得第M阶对应位置的第一更新特征;当所述第三张量特征中元素值为1的位置,所述第四张量特征中对应位置元素值为0时,则对所述第三张量特征补0,获得第M阶对应位置的第二更新特征;当所述第四张量特征中元素值为0的位置,所述第四张量特征中对应位置元素值为1时,则对所述第四张量特征补0,获得第M阶对应位置的第三更新特征;根据所述第一更新特征、所述第二更新特征以及所述第三更新特征,获得第M阶的更新因子矩阵。第二方面,基于同一专利技术构思,本申请通过本申请的一实施例提供如下技术方案:一种布尔型数据特征增量更新装置,包括:数据获取模块,用于获取原始张量和新增张量;其中,所述原始张量由原始的布尔型数据构建,所述新增张量由新增的布尔型数据构建;原始数据分解模块,用于根据所述原始张量,获得所述原始张量的R个原始因子矩阵;其中,R为所述原始张量的秩;新增数据子张量获取模块,用于根据所述新增张量,获得所述新增张量的第K阶对应的多个子张量;其中,K为小于等于N的正整数,N为所述原始张量的维数;增量阶数据更新模块,用于根据所述R个原始因子矩阵与第K阶对应的所述多个子张量,获得增量阶因子矩阵;其中,所述第K阶为增量阶;非增量阶数据更新模块,用于根据所述增量阶因子矩阵以及所述原始因子矩阵对所述新增张量的第M阶的新增因子矩阵进行更新,获得第M阶更新后的新增因子矩阵;其中,M为小于等于N且不为K的正整数;非增量阶特征融合模块,用于将第M阶的所述原始因子矩阵和第M阶对应的所述新增因子矩阵进行特征融合,获得第M阶的更新因子矩阵;其中,所述更新因子矩阵用于获得所述布尔型数据更新后的张量分解。优选地,所述增量阶数据更新模块,还用于:根据所述R个原始因子矩阵,获取第K阶对应的第一张量特征;根据所述多个子张量与所述第一张量特征的相似性,确定增量阶因子矩阵中每个位置的元素值;其中,所述相似性由所述第一张量特征与对应的所述子张量中的元素值相同的数量确定。优选地,所述增量本文档来自技高网...

【技术保护点】
1.一种布尔型数据特征增量更新方法,其特征在于,包括:/n获取原始张量和新增张量;其中,所述原始张量由原始的布尔型数据构建,所述新增张量由新增的布尔型数据构建;/n根据所述原始张量,获得所述原始张量的R个原始因子矩阵;其中,R为所述原始张量的秩;/n根据所述新增张量,获得所述新增张量的第K阶对应的多个子张量;其中,K为小于等于N的正整数,N为所述原始张量的维数;/n根据所述R个原始因子矩阵与第K阶对应的所述多个子张量,获得增量阶因子矩阵;其中,所述第K阶为增量阶;/n根据所述增量阶因子矩阵以及所述原始因子矩阵对所述新增张量的第M阶的新增因子矩阵进行更新,获得第M阶更新后的新增因子矩阵;其中,M为小于等于N且不为K的正整数;/n将第M阶的所述原始因子矩阵和第M阶对应的所述新增因子矩阵进行特征融合,获得第M阶的更新因子矩阵;其中,所述更新因子矩阵用于获得所述布尔型数据更新后的张量分解。/n

【技术特征摘要】
1.一种布尔型数据特征增量更新方法,其特征在于,包括:
获取原始张量和新增张量;其中,所述原始张量由原始的布尔型数据构建,所述新增张量由新增的布尔型数据构建;
根据所述原始张量,获得所述原始张量的R个原始因子矩阵;其中,R为所述原始张量的秩;
根据所述新增张量,获得所述新增张量的第K阶对应的多个子张量;其中,K为小于等于N的正整数,N为所述原始张量的维数;
根据所述R个原始因子矩阵与第K阶对应的所述多个子张量,获得增量阶因子矩阵;其中,所述第K阶为增量阶;
根据所述增量阶因子矩阵以及所述原始因子矩阵对所述新增张量的第M阶的新增因子矩阵进行更新,获得第M阶更新后的新增因子矩阵;其中,M为小于等于N且不为K的正整数;
将第M阶的所述原始因子矩阵和第M阶对应的所述新增因子矩阵进行特征融合,获得第M阶的更新因子矩阵;其中,所述更新因子矩阵用于获得所述布尔型数据更新后的张量分解。


2.根据权利要求1所述的方法,其特征在于,所述根据所述R个原始因子矩阵与第K阶对应的所述多个子张量,获得增量阶因子矩阵,包括:
根据所述R个原始因子矩阵,获取第K阶对应的第一张量特征;
根据所述多个子张量与所述第一张量特征的相似性,确定增量阶因子矩阵中每个位置的元素值;其中,所述相似性由所述第一张量特征与对应的所述子张量中的元素值相同的数量确定。


3.根据权利要求2所述的方法,其特征在于,所述根据所述多个子张量与所述第一张量特征的相似性,确定增量阶因子矩阵中每个位置的元素值,包括:
若第一张量特征被第一子张量包含,则确定第K阶的所述增量阶因子矩阵中与所述第一子张量对应的位置的元素值为1;其中,所述包含为所述第一张量特征中元素为1的位置在对应的所述第一子张量中的元素也为1,所述子张量包括第一子张量和第二子张量;
若第一张量特征中的元素值与所述第二子张量元素值之间的覆盖与过覆盖相同,则确定第K阶的所述增量阶因子矩阵中与所述第二子张量对应的位置的元素值为1;其中,所述覆盖为所述第一张量特征中元素为1的位置在对应的所述第二子张量中的元素也为1,所述过覆盖为所述第一张量特征中元素为1的位置在对应的所述第二子张量中的元素为0;
将第K阶的所述增量阶因子矩阵中未确定的元素位置,确定元素值为0。


4.根据权利要求2所述的方法,其特征在于,所述第K阶对应的所述第一张量特征的获取,包括:
将除第K阶对应的向量之外的其他向量的外积,作为第K阶对应的所述第一张量特征。


5.根据权利要求1所述的方法,其特征在于,所述根据所述增量阶因子矩阵以及所述原始因子矩阵对所述新增张量的第M阶的新增因子矩阵进行更新,获得第M阶更新后的新增因子矩阵,包括:
将第M阶的原始因子矩阵的每列元素,作为第M阶对应的一个第二张量特征;
根据每个所述第二张量特征中的元素值为1的数量,确定该第二张量特征对所述更新因子矩阵的影响;
若所述第二张量特征使得所述更新因子矩阵的误差降低,则确定第M阶的所述新增因子矩阵对应于所述第二张量特征的位置元素值为1;
否则,确定第M阶的所述新增因子矩阵对应于所述第二张量特征的位置元素值为0。


6.根据权利要求1所述的方法,其特征在于,所述将第M阶的所述原始因子矩阵和第M阶对应的所述新增因子矩阵进...

【专利技术属性】
技术研发人员:杨天若杨静刘华中高源
申请(专利权)人:华中科技大学鄂州工业技术研究院华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1