物联网数据的处理方法、装置、设备和介质制造方法及图纸

技术编号:35661655 阅读:20 留言:0更新日期:2022-11-19 17:00
本申请实施例提供了一种物联网数据的处理方法、装置、设备和介质,其中的方法具体包括:根据物联网数据的训练样本所对应第一原始向量中维度之间的相关性特征、和/或、训练样本所对应第一原始向量中维度的查询频率特征,将第一原始向量划分到多个子空间,以及,确定每个子空间内多个数据簇分别对应的聚类中心;其中,数据簇的数量为根据子空间内维度的查询频率特征确定;确定所述第二原始向量对应的编码向量;根据用户的查询请求,生成查询向量;从所述数据集合对应的第二原始向量中确定出所述查询向量对应的查询结果;向用户输出查询结果。本申请实施例可以在节省人工成本的情况下,提高物联网数据的查询效率,可以提高不同子空间之间的区分度。子空间之间的区分度。子空间之间的区分度。

【技术实现步骤摘要】
物联网数据的处理方法、装置、设备和介质


[0001]本申请涉及物联网
,特别是涉及一种物联网数据的处理方法、装置、设备和介质。

技术介绍

[0002]物联网(IoT,Internet of Things)通过传感设备将物品与互联网相联,让能够被独立寻址的物理对象可以实现信息交换,最终达到智能化识别、定位、追踪、监测和管理的目的。物联网数据来源于不同的传感设备,代表着数以十亿计的物理对象,且通常与时空相关;因此,物联网
存在着海量的物联网数据。
[0003]为了提高物联网数据的查询效率,目前通常由人工按照维度进行物联网数据的切分。具体而言,按照维度对应的“大于”或者“小于”,将物联网数据划分为两个分支,并将不同的分支分开存储。例如,将“时间”维度小于2020年的物联网数据划分为一个分支,将“时间”维度大于2020年的物联网数据划分为另一分支。或者,将“温度”维度大于30度的物联网数据划分一个分支,将“温度”维度小于30度的物联网数据划分为另一个分支。
[0004]在实际应用中,物联网数据通常具有多个维度;这样,由人工按照维度进行物联网数据的切分,将会耗费大量的人力成本。

技术实现思路

[0005]本申请实施例提供了一种物联网数据的处理方法,可以在节省人工成本的情况下,提高物联网数据的查询效率,且可以提高不同子空间之间的区分度,进而能够提高编码向量的精确度。
[0006]相应的,本申请实施例还提供了一种物联网数据的处理装置、一种电子设备和一种机器可读介质,用以保证上述方法的实现及应用。
[0007]为了解决上述问题,本申请实施例公开了一种物联网数据的处理方法,所述方法包括:根据物联网数据的训练样本所对应第一原始向量中维度之间的相关性特征、和/或、训练样本所对应第一原始向量中维度的查询频率特征,将所述第一原始向量划分到多个子空间,以及,确定每个子空间内多个数据簇分别对应的聚类中心;其中,所述数据簇的数量为根据所述子空间内维度的查询频率特征确定;所述聚类中心对应有索引值;所述索引值对应有编码信息;根据物联网数据的数据集合中第二原始向量对应的第一目标聚类中心、以及所述第一目标聚类中心的索引值对应的编码信息,确定所述第二原始向量对应的编码向量;根据用户的查询请求,生成查询向量;根据所述多个数据簇分别对应的聚类中心、以及所述第二原始向量对应的编码向量,从所述数据集合对应的第二原始向量中确定出所述查询向量对应的查询结果;向用户输出所述查询结果。
[0008]为了解决上述问题,本申请实施例公开了一种物联网数据的处理装置,所述装置包括:训练模块,用于根据物联网数据的训练样本所对应第一原始向量中维度之间的相关性特征、和/或、训练样本所对应第一原始向量中维度的查询频率特征,将所述第一原始向量划分到多个子空间,以及,确定每个子空间内多个数据簇分别对应的聚类中心;其中,所述数据簇的数量为根据所述子空间内维度的查询频率特征确定;所述聚类中心对应有索引值;所述索引值对应有编码信息;编码模块,用于根据物联网数据的数据集合中第二原始向量对应的第一目标聚类中心、以及所述第一目标聚类中心的索引值对应的编码信息,确定所述第二原始向量对应的编码向量;查询向量生成模块,用于根据用户的查询请求,生成查询向量;查询模块,用于根据所述多个数据簇分别对应的聚类中心、以及所述第二原始向量对应的编码向量,从所述数据集合对应的第二原始向量中确定出所述查询向量对应的查询结果;结果输出模块,用于向用户输出所述查询结果。
[0009]可选地,相关性特征值高于第一阈值的至少两个维度被划分到相同的子空间;和/或查询频率特征值高于第二阈值的至少两个维度被划分到相同的子空间。
[0010]可选地,第一子空间内第一维度的查询频率特征高于第二子空间内第二维度的查询频率特征,则第一子空间内数据簇的数量大于第二子空间内数据簇的数量。
[0011]可选地,所述维度包括:类别维度;所述类别维度包括:互不相同的第一类别维度和第二类别维度;所述训练模块包括:增加模块,用于增加所述第一类别维度所对应聚类中心和第二类别维度所对应聚类中心之间的距离。
[0012]可选地,所述训练模块包括:第一选取模块,用于从N个训练样本中随机选取K个训练样本,作为K个待定聚类中心;K为正整数;第二选取模块,用于根据训练样本与K个待定聚类中心之间的距离,从K个待定聚类中心中选取距离所述训练样本最近的目标待定聚类中心,并将所述训练样本划分到所述目标待定聚类中心对应的数据簇;比较模块,用于对所述目标待定聚类中心所对应数据簇的均值点与所述目标待定聚类中心进行比较,若相同则结束流程,若不同则将所述目标待定聚类中心更新为所述均值点,并重复执行所述从K个待定聚类中心中选取距离所述训练样本最近的目标待定聚类中心。
[0013]可选地,所述装置还包括:第一确定模块,用于根据第二原始向量与数据簇对应聚类中心之间的距离,确定并保存单个数据簇对应的倒排索引列表;所述倒排索引列表中的目标原始向量与所述单个数据簇所对应聚类中心之间的距离符合预设条件;
所述查询模块包括:第二确定模块,用于根据所述查询向量对应的第二目标聚类中心、以及所述倒排索引列表对应的聚类中心,确定所述查询向量对应的多个目标倒排索引列表;取交集模块,用于对所述多个目标倒排索引列表分别包含的目标原始向量取交集,以得到待选向量集合;排序模块,用于根据所述查询向量与所述待选向量集合中的目标原始向量之间的距离,对所述待选向量集合中的目标原始向量进行排序,并将排序后的目标原始向量,作为查询结果。
[0014]本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例所述的方法。
[0015]本申请实施例还公开了一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例所述的方法。
[0016]本申请实施例包括以下优点:在本申请实施例的技术方案中,对物联网数据进行子空间的划分和聚类,并将第二原始向量压缩为编码向量,可以降低第二原始向量占用的存储空间。例如,第二原始向量的维度为256,1个维度对应的浮点数占用4个字节,则一个第二原始向量占用256*4=1024 个字节的存储空间;假设子空间的数量为8,聚类中心的数量为256,则一个子空间对应索引值的范围为[0,255],假设一个索引值占用1个字节,则一个编码向量占用8个字节的存储空间。
[0017]本申请实施例还可以根据该多个数据簇分别对应的聚类中心、以及该第二原始向量对应的编码向量,从该数据集合对应的第二原始向量中确定出该查询向量对应的查询结果。其中,在从该数据集合对应的第二原始向量中确定出该查询向量对应的查询结果的过程中,可以将原始向量对应的距离运算,转化为子空间内聚类中心的距离运算,由于能够减少查询过程中的运算量,因此能够提高物联网数据的查询效率。
[0018]并且,本申请实施例的技术方案可由机器自动执行,由于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种物联网数据的处理方法,其特征在于,所述方法包括:根据物联网数据的训练样本所对应第一原始向量中维度之间的相关性特征、和/或、训练样本所对应第一原始向量中维度的查询频率特征,将所述第一原始向量划分到多个子空间,以及,确定每个子空间内多个数据簇分别对应的聚类中心;其中,所述数据簇的数量为根据所述子空间内维度的查询频率特征确定;所述聚类中心对应有索引值;所述索引值对应有编码信息;根据物联网数据的数据集合中第二原始向量对应的第一目标聚类中心、以及所述第一目标聚类中心的索引值对应的编码信息,确定所述第二原始向量对应的编码向量;根据用户的查询请求,生成查询向量;根据所述多个数据簇分别对应的聚类中心、以及所述第二原始向量对应的编码向量,从所述数据集合对应的第二原始向量中确定出所述查询向量对应的查询结果;向用户输出所述查询结果。2.根据权利要求1所述的方法,其特征在于,相关性特征值高于第一阈值的至少两个维度被划分到相同的子空间;和/或查询频率特征值高于第二阈值的至少两个维度被划分到相同的子空间。3.根据权利要求1所述的方法,其特征在于,第一子空间内第一维度的查询频率特征高于第二子空间内第二维度的查询频率特征,则第一子空间内数据簇的数量大于第二子空间内数据簇的数量。4.根据权利要求1至3中任一所述的方法,其特征在于,所述维度包括:类别维度;所述类别维度包括:互不相同的第一类别维度和第二类别维度;所述确定每个子空间内多个数据簇分别对应的聚类中心,包括:增加所述第一类别维度所对应聚类中心和第二类别维度所对应聚类中心之间的距离。5.根据权利要求1至3中任一所述的方法,其特征在于,所述确定每个子空间内多个数据簇分别对应的聚类中心,包括:从N个训练样本中随机选取K个训练样本,作为K个待定聚类中心;K为正整数;根据训练样本与K个待定聚类中心之间的距离,从K个待定聚类中心中选取距离所述训练样本最近的目标待定聚类中心,并将所述训练样本划分到所述目标待定聚类中心对应的数据簇;对所述目标待定聚类中心所对应数据簇的均值点与所述目标待定聚类中心进行比较,若相同则结束流程,若不同则将所述目标待定聚类中心更新为所述均值点,并重复执行所述从K个待定聚类中心中选取距离所述训练样本最近的目标待定聚类中心。6.根据权利要求1至3中任一所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:于海涛艾国杨作兴
申请(专利权)人:深圳比特微电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1