一种基于深度学习网络的视频画面立体拼接方法和系统技术方案

技术编号：24254468 阅读：30 留言：0更新日期：2020-05-23 01:11

本发明专利技术公开了一种基于深度学习网络的视频画面立体拼接方法和系统，该方法包括：提取步骤：提取同一视点拍摄的二维视频画面中的匹配点；拼接步骤：基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；判别步骤：将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面；重复步骤：提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点的全景视频画面；组合步骤：将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合，生成全景立体视频。该方法通过GAN网络实现对景点实时风貌和表演进行全景立体视频展示，降低人工成本。

A method and system of 3D video mosaic based on deep learning network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习网络的视频画面立体拼接方法和系统
本专利技术涉及视频画面拼接
，具体是一种基于深度学习网络的视频画面立体拼接方法和系统。
技术介绍
随着在线智慧旅游服务的兴起，以及VR头盔等设备进入消费市场，越来越多的景区开始在其官网或者APP上面提供景点的全景立体视频展示服务，让游客在家中通过头戴VR头盔设备，也能够身临其境，获得360度无死角的立体视觉感官体验。甚至可以根据在景点实时拍摄的全景立体视频，对在线展示的内容进行同步更新，比如全景立体视频展示服务呈现的景点的当前风貌与真实景点完全同步，或者通过全景立体视频展示服务也可以观赏景点正在举办的表演等活动。但是，真正的高清晰度全景立体视频摄像机价格不菲，无法做到在景点大量安装，而且为了与游客的正常视角一致，这些摄像机的安装高度应该与人体高度近似，这也造成设备很容易被损坏。因此，从成本的角度出发，可以利用高清晰度的普通摄像头，从各个视角方向上拍摄较大数量的景点二维视频画面，再通过后期拼接技术生成景点的全景立体视频画面；但是，一般后期拼接都要由专门的工作人员花费较多的工时，人力成本高，而且无法实现对景点实时风貌和表演进行全景立体视频展示。因此，如何对景点实时风貌和表演进行全景立体视频展示，降低人工成本是本领域技术人员亟待解决的问题。
技术实现思路
鉴于上述问题，本专利技术的目的是解决通过后期拼接技术将景点二维视频画面生成景点的全景立体视频画面人力成本高，而且无法实现对景点实时风貌和表演进行全景立体视频展示的问...

【技术保护点】
1.一种基于深度学习网络的视频画面立体拼接方法，其特征在于，包括：/n提取步骤：提取同一视点拍摄的二维视频画面中的匹配点；/n拼接步骤：基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；/n判别步骤：将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面；/n重复步骤：提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点的全景视频画面；/n组合步骤：将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合，生成全景立体视频。/n

【技术特征摘要】
1.一种基于深度学习网络的视频画面立体拼接方法，其特征在于，包括：
提取步骤：提取同一视点拍摄的二维视频画面中的匹配点；
拼接步骤：基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；
判别步骤：将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面；
重复步骤：提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点的全景视频画面；
组合步骤：将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合，生成全景立体视频。

2.如权利要求1所述的一种基于深度学习网络的视频画面立体拼接方法，其特征在于，基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面，包括：
建立所述二维视频画面中的匹配点之间的初始匹配向量集合；
将所述初始匹配向量集合输入生成器G，获取配准匹配向量，生成配准匹配向量集合；
根据所述配准匹配向量集合，确定任意两个二维视频画面之间的配准关系；
根据所述配准关系，对所述二维视频画面进行拼接，生成所述全景视频画面。

3.如权利要求1所述一种基于深度学习网络的视频画面立体拼接方法，其特征在于，将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面，包括：
将所述全景视频画面输入经过训练之后的判别器D进行判别，生成判别结果，并将所述判别结果反馈给所述生成器G；
若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合；
根据所述下一轮的配准向量集合，确定所述任意两个二维视频画面之间的配准关系；
根据所述配准关系，对所述任两个二维视频画面进行拼接，生成下一轮的全景视频画面；
将所述下一轮的全景视频画面输入所述判别器D进行判别，生成判别结果；
若判别结果为伪，重复上述步骤，直至所述判别结果为真，生成所述第一视点的全景视频画面。

4.如权利要求3所述的一种基于深度学习网络的视频画面立体拼接方法，其特征在于，若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合，包括：
若判别结果为伪，所述生成器G的神经网络调节神经元连接权重，生成匹配向量集合；
根据所述下一轮的匹配向量集合，获取下一轮的配准匹配向量，生成所述下一轮的配准匹配向量集合。

5.如权利要求1所述的一种基于深度学习网络的视频画面立体拼接方法，其特征在于，所述匹配点，包括以下任意一种：
SIFT特征点、HARRIS角点。

6.一种基于深度学习网络的...

【专利技术属性】
技术研发人员：鲍敏，谢超，
申请(专利权)人：重庆特斯联智慧科技股份有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人