一种面向点云视频流媒体传输的用户视角预测方法技术

技术编号:33710464 阅读:8 留言:0更新日期:2022-06-06 08:42
本发明专利技术公开了一种面向点云视频流媒体传输的用户视角预测方法,包括以下步骤:1、构建面向点云视频流媒体传输的用户视角预测网络;2、构建所述网络中的3D点云视频显著性检测模、基于用户视点预测提取特征模型和显著性检测与视点预测特征整合模型;3、结合视频的显著性特征和基于视点预测提取的特征进行融合,得到预测的用户视角情况。本发明专利技术首次提出3D点云视频流视角预测方法,利用3D点云视频流的显著性检测与某个用户视角结合起来得到最终预测的用户视角,从而能提高预测精度。从而能提高预测精度。从而能提高预测精度。

【技术实现步骤摘要】
一种面向点云视频流媒体传输的用户视角预测方法


[0001]本专利技术涉及多媒体视频传输领域,具体的说是一种基于点集深度学习网络和LSTM的3D点云视频的视角预测方法。

技术介绍

[0002]3D点云,由激光雷达或深度相机收集来的。它比起2D图像提供了更多的几何信息,也具有比2D图像更多更大的数据量。由于头戴式显示设备HMD的局限性,用户只能看到视频中每一帧画面的一小部分,此外3D点云的视频总是在一段时间内连续播放,视频的内容不断变化。因此,对3D点云视频进行视角预测的研究,预测用户每一帧想要看到的画面。假设用户未来的视角已知,则可以根据用户感兴趣的视频区域选择对应的视频传输,从而在视频传输中有利于带节省带宽资源,并使得用户观看的视频质量和用户体验效果更好。
[0003]3D点云视频视角预测要求网络同时提取空间信息和时间信息。因此将3D点云视频视角预测任务分解成两个子任务,即3D点云视频显著性检测和用户视点预测。其中3D点云视频显著性检测也分为空间特征提取和时间特征提取两个部分。
[0004]桂林电子科技大学吴军等人公开了一种基于卷积神经网络的复杂场景3D点云语义分割方法(公开号:CN110647835A),对获取的原始点云进行下采样,并分别利用中心自注意力机制和邻域自注意力机制对采样得到的采样点云进行特征提取,之后,将提取得到的点云空间位置特征和获取的点云数据属性特征进行拼接,经过注意力机制下的差异性池化处理,得到全局特征向量;采用跳跃连接的方式将每一层上采样结果和对应的所述全局特征向量进行级联,最终经过全连接层的处理,生成点云分割神经网络模型,利用获取的多组点云数据集对所述点云分割神经网络模型进行训练和预测,最终完成语义分割任务。该研究对3D点云进行语义分割方法只结合了当前帧的空间显著特征,对于3D点云视频的语义分割而言该研究方法导致分割精度低。
[0005]北京交通大学管文华提出分别设计了一种基于第一视角的行人轨迹预测算法和一种基于人体关节点的低头异常行为检测算法,使车辆能够在复杂的场景中更加准确地避开行人,提高道路行驶的安全性(分类号:U463.6;TP391.41;TP18)。该研究的主要工作之一提出了一种基于第一视角的行人轨迹预测算法。首先根据第一视角的场景特性,设计了相应算法提取所需的行人历史轨迹特征、场景特征及车辆的自我运动信息,帮助车辆更好地感知周围环境;其次将上述特征编码为相同长度的视觉张量,在轨迹生成器中,为了充分学习多种特征,在编码后的视觉张量中引入注意机制以避免时间序列算法的遗忘缺陷,进而建立对不同时间特征向量的不同关注度;最后,根据每个时刻解码器的状态,即具有注意机制的特征向量,使用LSTM解码器直接预测目标人物的未来轨迹。通过在公开数据集上测试,验证了本文算法的有效性。该研究的基于LSTM结合所需行人的历史轨迹特征考虑了时间维度上的特征对预测的影响,但并没有结合第一视角下场景的显著性特征得出车辆感知周围环境的优先顺序,导致车辆最后可能为了规避较远的行人却撞上了较近的行人,预测的精度低。

技术实现思路

[0006]本专利技术是为了解决上述现有技术存在的不足之处,提出一种面向点云视频流媒体传输的用户视角预测方法,以期将显著性检测与某用户视点预测结合起来得到最终预测的用户视角,从而提高预测精度。
[0007]本专利技术为解决技术问题采用如下技术方案:
[0008]本专利技术一种面向点云视频流媒体传输的用户视角预测方法的特点是按如下步骤进行的:
[0009]步骤一、数据预处理:
[0010]步骤1.1、获取m个用户观看n帧点云视频的m
×
n个视点信息其中,表示第m个用户观看第n帧点云视频的视点信息;
[0011]步骤1.2、提取所述视点信息中用户视角内的n帧点云数据{x1,x2,...,x
t
,...,x
n
},其中,x
t
表示第t帧点云数据,且每一帧点云数据包括m个用户视角内的点云数据;
[0012]步骤二、构建面向点云视频流媒体传输的用户视角预测网络;
[0013]所述用户视角预测网络包括:3D点云视频显著性检测模型N
VS
、基于用户视点预测提取特征模型N
EP
、显著性检测与视点预测特征整合模型N
F2one
和解码网络;
[0014]其中,所述3D点云视频显著性检测模型N
VS
包括:单帧点云显著性特征提取支路L
SF
和连续多帧点云时间特征提取支路L
DC
;其中,所述单帧点云显著性提取支路L
SF
包含:单帧同步帧采样模块N
FS
和单帧局部特征聚合模块M
LFA
;所述连续多帧点云时间特征提取支路L
DC
包含:多帧同步帧采样模块M
FSM
、多帧局部特征聚合模块M
LFAM
和多帧时间特征提取模块M
DCF

[0015]所述基于用户视点预测提取特征模型N
EP
包含:视点同步帧采样模块M
FSV
和视点局部特征聚合模块M
LFAV

[0016]步骤三、将所述第t帧点云数据x
t
作为当前帧点云数据并输入所述单帧点云显著性提取支路L
SF
中,经过所述单帧同步帧采样模块M
FS
的随机采样处理后,得到当前帧采样数据f
t
和采样时选取的中心点位置S;其中,当前帧采样数据f
t
的数据量为bs
×
nps个采样点,bs表示采样块个数,nps表示每个采样块的点数;
[0017]将当前帧采样数据f
t
输入所述单帧局部特征聚合模块M
LFA
中进行KNN算法处理,以搜寻出当前帧采样数据f
t
中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到当前帧空间尺度特征F
tS
;其维度为bs
×
nps
×1×
1024;
[0018]步骤四、所述当前帧点云数据x
t
和前k帧点云数据输入所述连续多帧点云时间特征提取支路L
DC
中,其中,当前帧点云数据x
t
的前k帧点云数据输入所述多帧同步帧采样模块M
FSM
中进行随机采样,并以所述中心点位置S为前k帧点云数据采样的中心点位置,从而得到前k帧采样数据{f
t

k
,...,f
t
‑1},其数据量均为bs
×
nps个采样点;其中,f
t
‑1表示前一帧采样数据;
[0019]将所述前k帧采样数据{f
t

k...

【技术保护点】

【技术特征摘要】
1.一种面向点云视频流媒体传输的用户视角预测方法,其特征是按如下步骤进行的:步骤一、数据预处理:步骤1.1、获取m个用户观看n帧点云视频的m
×
n个视点信息其中,表示第m个用户观看第n帧点云视频的视点信息;步骤1.2、提取所述视点信息中用户视角内的n帧点云数据{x1,x2,...,x
t
,...,x
n
},其中,x
t
表示第t帧点云数据,且每一帧点云数据包括m个用户视角内的点云数据;步骤二、构建面向点云视频流媒体传输的用户视角预测网络;所述用户视角预测网络包括:3D点云视频显著性检测模型N
VS
、基于用户视点预测提取特征模型N
EP
、显著性检测与视点预测特征整合模型NF
2one
和解码网络;其中,所述3D点云视频显著性检测模型N
VS
包括:单帧点云显著性特征提取支路L
SF
和连续多帧点云时间特征提取支路L
DC
;其中,所述单帧点云显著性提取支路L
SF
包含:单帧同步帧采样模块M
FS
和单帧局部特征聚合模块M
LFA
;所述连续多帧点云时间特征提取支路L
DC
包含:多帧同步帧采样模块M
FSM
、多帧局部特征聚合模块M
LFAM
和多帧时间特征提取模块M
DCF
;所述基于用户视点预测提取特征模型N
EP
包含:视点同步帧采样模块M
FSV
和视点局部特征聚合模块M
LFAV
;步骤三、将所述第t帧点云数据x
t
作为当前帧点云数据并输入所述单帧点云显著性提取支路L
SF
中,经过所述单帧同步帧采样模块M
FS
的随机采样处理后,得到当前帧采样数据f
t
和采样时选取的中心点位置S;其中,当前帧采样数据f
t
的数据量为bs
×
nps个采样点,bs表示采样块个数,nps表示每个采样块的点数;将当前帧采样数据f
t
输入所述单帧局部特征聚合模块M
LFA
中进行KNN算法处理,以搜寻出当前帧采样数据f
t
中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到当前帧空间尺度特征F
tS
;其维度为bs
×
nps
×1×
1024;步骤四、所述当前帧点云数据x
t
和前k帧点云数据输入所述连续多帧点云时间特征提取支路L
DC
中,其中,当前帧点云数据x
t
的前k帧点云数据输入所述多帧同步帧采样模块M
FSM
中进行随机采样,并以所述中心点位置S为前k帧点云数据采样的中心点位置,从而得到前k帧采样数据{f
t

k
,...,f
t
‑1},其数据量均为bs
×
nps个采样点;其中,f
t
‑1表示前一帧采样数据;将所述前k帧采样数据{f
t

k
,...,f
t
‑1}并行输入所述多帧局部特征聚合模块M
LFAM
中进行KNN算法处理,以搜寻出前k帧采样数据{f
t

k
,...,f
t
‑1}中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到前k帧空间尺度特征其中,表示前一帧空间尺度特征;将所述前k帧空间尺度特征和当前帧空间尺度特征F
tS
输入所述多帧时间特征提取模块M
DCF
中进行处理,得到当前帧时间尺度特征F
tT
;将所述当前帧空间尺度特征F
tS
和当前帧时间尺度特征F
tT
按通道串联后,得到当前帧点云数据x
t
的时空特征F
tST
并作为3D点云视频的当前帧显著性特征;步骤五、利用LSTM神经网络对所述视点信息进行视点预
测,得到m个用户n帧的视点预测信息其中,表示预测得到的第m个用户观看第n帧点云视频的视点信息;步骤六、从视点预测信息中随机选取第u个用户的当前帧视点预测信息并提取其点云数据x
u,t
;其中,x
u,t
包含第u个用户预测观看到的点云数据和第u个用户预测观看不到的点云数据并将观看到的点云数据的标签设置“1”,观看不到的点云数据的标签为“0”...

【专利技术属性】
技术研发人员:黎洁李芷鑫李奇越文锋邓锦深张聪韩玲王枭王慧宇彭涛陈勇
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1