一种基于视频生成毫米波雷达数据的方法及装置制造方法及图纸

技术编号:37963066 阅读:6 留言:0更新日期:2023-06-30 09:38
本发明专利技术公开了一种基于视频生成毫米波雷达数据的方法及装置,首先利用变体孪生网络选择出视频中的关键数据片段,然后利用人体区域索引算法实现人体网格数据和人体位置信息的一对一匹配,再利用人体网格模型和深度预测模型生成相应的深度信息、雷达横截面和径向速度,随后采用多人反射模型模拟雷达信号的多径反射和衰减,输出可转换的粗糙雷达数据,最后使用Transformer模型生成逼真的雷达数据,解决了不同动作类别之间的不平衡问题,同时确保了用于人体感知的机器学习模型稳定性,解决了深度信息和多人网格数据错误匹配问题,解决了雷达信号在发射和接收过程中存在的多径反射和衰减问题,可应用到人体动作识别、目标检测等人体感知相关下游任务中。等人体感知相关下游任务中。等人体感知相关下游任务中。

【技术实现步骤摘要】
一种基于视频生成毫米波雷达数据的方法及装置


[0001]本专利技术涉及毫米波雷达感知
,尤其涉及一种基于视频生成毫米波雷达数据的方法及装置。

技术介绍

[0002]毫米波雷达作为一个新兴的传感器在自动驾驶、智能交通和智能家居等系统中得到了广泛使用,并能够提供鲁棒且保护隐私的人体感知。毫米波雷达技术的发展催生了一系列现成的产品,使其具有成本低、体积小、便于集成的特点。这些产品常见的应用场景聚焦于两个方面,第一个为动作识别,例如(i)智能健身房,根据用户锻炼的内容来调整空调(如温度、风速);(ii)AR/VR(例如头号玩家、绿洲),通过识别人体的动作进行多人交互。另外一个为目标检测,例如(i)智能夜归检测,通过识别目标,执行智能的免打扰控制或报警操作;(ii)空调风避人,通过检测多个人的位置,调整空调的吹风口。
[0003]然而,现有的毫米波雷达数据集通常是针对特定任务定制的且数据规模有限,这极大地限制了深度学习模型实现高泛化性和鲁棒性的潜力。同时,大规模毫米波雷达数据的采集与标注是一项劳动密集性且耗时的工作,这极大限制了毫米波雷达数据集规模的扩充。
[0004]为了解决目前毫米波雷达数据集不足的问题,现有工作利用多种不同的数据源来合成毫米波雷达数据且取得了不错的效果。基于运动捕捉的雷达数据生成方法计算复杂度较低,但它的数据通常是稀疏的(只有十几个关键关节),仅能提供一个粗糙的雷达信号。基于深度相机的雷达数据生成方法能够提供人体的具体3D点云信息,但它的数据集缺少一些常见的动作。最新工作(Ahuja K,Jiang Y,Goel M,et al.Vid2Doppler:synthesizing Doppler radar data from videos for training privacy

preserving activity recognition[C]//Proceedings of the 2021CHI Conference on Human Factors in Computing Systems.2021:1

10)利用丰富的2D视频数据来生成大规模的毫米波雷达训练数据,但具有以下局限性:(1)仅适用于单人场景,无法处理多人场景中的多径反射与衰减;(2)生成的数据不具有转换性,仅能适用于特定应用场景;(3)公开的视频数据集往往存在类别不平衡的问题,使得生成的数据导致模型稳定性差。因此,难以从视频中生成逼真的、可转换的毫米波雷达数据。

技术实现思路

[0005]本专利技术针对现有技术的不足,提出一种利用丰富的视频数据生成毫米波雷达数据的方法,解决目前毫米波雷达相关数据集缺乏的问题,可以从视频中生成逼真的、可转换的毫米波雷达数据,并应用到基于毫米波雷达数据的下游任务中。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]第一方面,本专利技术提供一种基于视频生成毫米波雷达数据的方法,包括以下步骤:
[0008]S1、采用变种孪生网络提取视频中的关键数据片段;
[0009]S2、利用人体区域索引算法实现人体网格数据和人体位置信息的一对一匹配;
[0010]S3、利用人体网格模型和深度预测模型生成相应的深度信息、雷达横截面和径向速度;
[0011]S4、采用多人反射模型模拟雷达信号的多径反射和衰减,输出可转换的粗糙雷达数据;
[0012]S5、使用Transformer模型生成逼真的雷达数据。
[0013]进一步地,步骤S1中变种孪生网络包括两个子网络,第一个子网络将选取的关键帧依次通过卷积层获取相应的特征向量集合;第二个子网络计算不同特征向量之间的欧氏距离获取距离向量集合,并将获取的距离向量集合通过全连接层得到关键帧之间量化的标量集合;随后,标量集合作为sigmoid函数的输入输出相应的对比矩阵;最后,利用广度优先搜索算法聚类对比矩阵以输出视频中的关键数据片段。
[0014]进一步地,步骤S1采用变种孪生网络提取视频中的关键数据片段的具体过程为:
[0015]S11、对一个输入视频,将其切分成n个片段,并从每个片段中抽取一帧作为关键帧,即可获得该视频的n个关键帧;
[0016]S12、第一个子网络使用16层卷积从n个关键帧中提取出特征向量集合{f1,f2,...,f
n
};
[0017]S12、利用不同特征向量之间的欧氏距离,使用公式(1)计算出距离向量集合{z
1,2
,...,z
1,n
,z
2,3
,...,z
2,n
,...,z
n

1,n
};
[0018][0019]S13、使用对比损失函数计算关键帧之间的相似度,如公式(2)和(3)所示,获取一个标量集合{l
1,2
,...,l
1,n
,l
2,3
,...,l
2,n
,...,l
n

1,n
};
[0020][0021]L(W,(Y,x
n
‑1,x
n
)
i
)=(1

Y)L
S
(z
n

1,n
(x
n
‑1,x
n
)
i
)+YL
D
(z
n

1,n
(x
n
‑1,x
n
)
i
)
ꢀꢀꢀ
(3)
[0022]其中,(Y,x
n
‑1,x
n
)
i
代表第i个样本,其包括一个输入对x
n
‑1,x
n
和一个代表这两个输入是否属于同一类别的标签Y,W代表模型参数,L
S
代表当这两个输入属于同一类别时的损失函数,L
D
代表不同类别时的损失函数;
[0023]S14、使用sigmoid函数对标量集合进行归一化,得到一个对角线为零的上三角对比矩阵;
[0024]S15、利用广度优先搜索算法对对比矩阵进行聚类,得到关键视频片段。
[0025]进一步地,步骤S2中利用人体区域索引算法实现人体网格数据和人体位置信息的一对一匹配的具体过程为:
[0026]S21、对输入的视频帧使用目标检测模型识别出每个人体边界框,并从第一帧视频开始,为每个出现的人体边界框分配一个唯一的索引;
[0027]S22、在每一个即将到来的帧F
i
中,计算第F
i
帧与第F
i
‑1帧中边界框的位置偏移和区域偏移,以此将第F
i
帧中的每一个边界框与之前分配的相应索引相匹配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频生成毫米波雷达数据的方法,其特征在于,包括以下步骤:S1、采用变种孪生网络提取视频中的关键数据片段;S2、利用人体区域索引算法实现人体网格数据和人体位置信息的一对一匹配;S3、利用人体网格模型和深度预测模型生成相应的深度信息、雷达横截面和径向速度;S4、采用多人反射模型模拟雷达信号的多径反射和衰减,输出可转换的粗糙雷达数据;S5、使用Transformer模型生成逼真的雷达数据。2.根据权利要求1所述的基于视频生成毫米波雷达数据的方法,其特征在于,步骤S1中变种孪生网络包括两个子网络,第一个子网络将选取的关键帧依次通过卷积层获取相应的特征向量集合;第二个子网络计算不同特征向量之间的欧氏距离获取距离向量集合,并将获取的距离向量集合通过全连接层得到关键帧之间量化的标量集合;随后,标量集合作为sigmoid函数的输入输出相应的对比矩阵;最后,利用广度优先搜索算法聚类对比矩阵以输出视频中的关键数据片段。3.根据权利要求2所述的基于视频生成毫米波雷达数据的方法,其特征在于,步骤S1采用变种孪生网络提取视频中的关键数据片段的具体过程为:S11、对一个输入视频,将其切分成n个片段,并从每个片段中抽取一帧作为关键帧,即可获得该视频的n个关键帧;S12、第一个子网络使用16层卷积从n个关键帧中提取出特征向量集合{f1,f2,...,f
n
};S12、利用不同特征向量之间的欧氏距离,使用公式(1)计算出距离向量集合{z
1,2
,...,z
1,n
,z
2,3
,...,z
2,n
,...,z
n

1,n
};S13、使用对比损失函数计算关键帧之间的相似度,如公式(2)和(3)所示,获取一个标量集合{l
1,2
,...,l
1,n
,l
2,3
,...,l
2,n
,...,l
n

1,n
};L(W,(Y,x
n
‑1,x
n
)
i
)=(1

Y)L
S
(z
n

1,n
(x
n
‑1,x
n
)
i
)+YL
D
(z
n

1,n
(x
n
‑1,x
n
)
i
)(3)其中,(Y,x
n
‑1,x
n
)
i
代表第i个样本,其包括一个输入对x
n
‑1,x
n
和一个代表这两个输入是否属于同一类别的标签Y,W代表模型参数,L
S
代表当这两个输入属于同一类别时的损失函数,L
D
代表不同类别时的损失函数;S14、使用sigmoid函数对标量集合进行归一化,得到一个对角线为零的上三角对比矩阵;S15、利用广度优先搜索算法对对比矩阵进行聚类,得到关键视频片段。4.根据权利要求1所述的基于视频生成毫米波雷达数据的方法,其特征在于,步骤S2中利用人体区域索引算法实现人体网格数据和人体位置信息的一对一匹配的具体过程为:S21、对输入的视频帧使用目标检测模型识别出每个人体边界框,并从第一帧视频开始,为每个出现的人体边界框分配一个唯一的索引;S22、在每一个即将到来的帧F
i
中,计算第F
i

【专利技术属性】
技术研发人员:赵东马华东韩乔岳邓凯凯张紫涵王书岳
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1