一种基于深度学习网络的视频画面立体拼接方法和系统技术方案

技术编号:24254468 阅读:20 留言:0更新日期:2020-05-23 01:11
本发明专利技术公开了一种基于深度学习网络的视频画面立体拼接方法和系统,该方法包括:提取步骤:提取同一视点拍摄的二维视频画面中的匹配点;拼接步骤:基于所述二维视频画面中的匹配点,利用GAN网络,对所述二维视频画面进行拼接,生成全景视频画面;判别步骤:将所述全景视频画面输入所述GAN网络进行判别,生成第一视点的全景视频画面;重复步骤:提取另一视点拍摄的二维视频画面中的匹配点,重复拼接步骤与判别步骤,生成第二视点的全景视频画面;组合步骤:将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合,生成全景立体视频。该方法通过GAN网络实现对景点实时风貌和表演进行全景立体视频展示,降低人工成本。

A method and system of 3D video mosaic based on deep learning network

【技术实现步骤摘要】
一种基于深度学习网络的视频画面立体拼接方法和系统
本专利技术涉及视频画面拼接
,具体是一种基于深度学习网络的视频画面立体拼接方法和系统。
技术介绍
随着在线智慧旅游服务的兴起,以及VR头盔等设备进入消费市场,越来越多的景区开始在其官网或者APP上面提供景点的全景立体视频展示服务,让游客在家中通过头戴VR头盔设备,也能够身临其境,获得360度无死角的立体视觉感官体验。甚至可以根据在景点实时拍摄的全景立体视频,对在线展示的内容进行同步更新,比如全景立体视频展示服务呈现的景点的当前风貌与真实景点完全同步,或者通过全景立体视频展示服务也可以观赏景点正在举办的表演等活动。但是,真正的高清晰度全景立体视频摄像机价格不菲,无法做到在景点大量安装,而且为了与游客的正常视角一致,这些摄像机的安装高度应该与人体高度近似,这也造成设备很容易被损坏。因此,从成本的角度出发,可以利用高清晰度的普通摄像头,从各个视角方向上拍摄较大数量的景点二维视频画面,再通过后期拼接技术生成景点的全景立体视频画面;但是,一般后期拼接都要由专门的工作人员花费较多的工时,人力成本高,而且无法实现对景点实时风貌和表演进行全景立体视频展示。因此,如何对景点实时风貌和表演进行全景立体视频展示,降低人工成本是本领域技术人员亟待解决的问题。
技术实现思路
鉴于上述问题,本专利技术的目的是解决通过后期拼接技术将景点二维视频画面生成景点的全景立体视频画面人力成本高,而且无法实现对景点实时风貌和表演进行全景立体视频展示的问题,实现对景点实时风貌和表演进行全景立体视频展示,降低人工成本。本专利技术实施例提供一种基于深度学习网络的视频画面立体拼接方法,包括:提取步骤:提取同一视点拍摄的二维视频画面中的匹配点;拼接步骤:基于所述二维视频画面中的匹配点,利用GAN网络,对所述二维视频画面进行拼接,生成全景视频画面;判别步骤:将所述全景视频画面输入所述GAN网络进行判别,生成第一视点的全景视频画面;重复步骤:提取另一视点拍摄的二维视频画面中的匹配点,重复拼接步骤与判别步骤,生成第二视点的全景视频画面;组合步骤:将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合,生成全景立体视频。在一个实施例中,基于所述二维视频画面中的匹配点,利用GAN网络,对所述二维视频画面进行拼接,生成全景视频画面,包括:建立所述二维视频画面中的匹配点之间的初始匹配向量集合;将所述初始匹配向量集合输入生成器G,获取配准匹配向量,生成配准匹配向量集合;根据所述配准匹配向量集合,确定任意两个二维视频画面之间的配准关系;根据所述配准关系,对所述二维视频画面进行拼接,生成所述全景视频画面。在一个实施例中,将所述全景视频画面输入所述GAN网络进行判别,生成第一视点的全景视频画面,包括:将所述全景视频画面输入经过训练之后的判别器D进行判别,生成判别结果,并将所述判别结果反馈给所述生成器G;若判别结果为伪,则所述生成器G生成下一轮的配准匹配向量集合;根据所述下一轮的配准向量集合,确定所述任意两个二维视频画面之间的配准关系;根据所述配准关系,对所述任两个二维视频画面进行拼接,生成下一轮的全景视频画面;将所述下一轮的全景视频画面输入所述判别器D进行判别,生成判别结果;若判别结果为伪,重复上述步骤,直至所述判别结果为真,生成所述第一视点的全景视频画面。在一个实施例中,若判别结果为伪,则所述生成器G生成下一轮的配准匹配向量集合,包括:若判别结果为伪,所述生成器G的神经网络调节神经元连接权重,生成匹配向量集合;根据所述下一轮的匹配向量集合,获取下一轮的配准匹配向量,生成所述下一轮的配准匹配向量集合。在一个实施例中,所述匹配点,包括以下任意一种:SIFT特征点、HARRIS角点。第二方面,本专利技术还提供一种基于深度学习网络的视频画面立体拼接系统,包括:提取模块,用于提取同一视点拍摄的二维视频画面中的匹配点;拼接模块,用于基于所述二维视频画面中的匹配点,利用GAN网络,对所述二维视频画面进行拼接,生成全景视频画面;判别模块,用于将所述全景视频画面输入所述GAN网络进行判别,生成第一视点的全景视频画面;重复模块,用于提取另一视点拍摄的二维视频画面中的匹配点,重复拼接步骤与判别步骤,生成第二视点的全景视频画面;组合模块,用于将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合,生成全景立体视频。在一个实施例中,所述拼接模块,包括:建立子模块,用于建立所述二维视频画面中的匹配点之间的初始匹配向量集合;第一生成子模块,用于将所述初始匹配向量集合输入生成器G,获取配准匹配向量,生成配准匹配向量集合;第一确定子模块,用于根据所述配准匹配向量集合,确定任意两个二维视频画面之间的配准关系;拼接子模块,用于根据所述配准关系,对所述二维视频画面进行拼接,生成所述全景视频画面。在一个实施例中,所述判别模块,包括:反馈子模块,用于将所述全景视频画面输入经过训练之后的判别器D进行判别,生成判别结果,并将所述判别结果反馈给所述生成器G;第二生成子模块,用于若判别结果为伪,则所述生成器G生成下一轮的配准匹配向量集合;第二确定子模块,用于根据所述下一轮的配准向量集合,确定所述任意两个二维视频画面之间的配准关系;全景视频画面生成子模块,用于根据所述配准关系,对所述任两个二维视频画面进行拼接,生成下一轮的全景视频画面;判别子模块,用于将所述下一轮的全景视频画面输入所述判别器D进行判别,生成判别结果;重复子模块,用于若判别结果为伪,重复上述步骤,直至所述判别结果为真,生成所述第一视点的全景视频画面。在一个实施例中,所述第二生成子模块,包括:调节单元,用于若判别结果为伪,所述生成器G的神经网络调节神经元连接权重,生成匹配向量集合;获取单元,用于根据所述下一轮的匹配向量集合,获取下一轮的配准匹配向量,生成所述下一轮的配准匹配向量集合。在一个实施例中,所述提取模块中的所述匹配点,包括以下任意一种:SIFT特征点、HARRIS角点。本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术实施例提供的一种基于深度学习网络的视频画面立体拼接方法,本方法利用GAN网络对同一视点的二维视频画面进行拼接与判断,能够快速准确地实现拼接较多数量的二维视频画面,并利用GAN网络对拼接后的全景视频画面进行判断,提高了拼接的准确率,降低了人力成本,提高了效率。将不同视点的全景视频画面进行组合,实现了对景点实时风貌和表演的全景立体视频展示,提高了用户体验。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在本文档来自技高网...

【技术保护点】
1.一种基于深度学习网络的视频画面立体拼接方法,其特征在于,包括:/n提取步骤:提取同一视点拍摄的二维视频画面中的匹配点;/n拼接步骤:基于所述二维视频画面中的匹配点,利用GAN网络,对所述二维视频画面进行拼接,生成全景视频画面;/n判别步骤:将所述全景视频画面输入所述GAN网络进行判别,生成第一视点的全景视频画面;/n重复步骤:提取另一视点拍摄的二维视频画面中的匹配点,重复拼接步骤与判别步骤,生成第二视点的全景视频画面;/n组合步骤:将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合,生成全景立体视频。/n

【技术特征摘要】
1.一种基于深度学习网络的视频画面立体拼接方法,其特征在于,包括:
提取步骤:提取同一视点拍摄的二维视频画面中的匹配点;
拼接步骤:基于所述二维视频画面中的匹配点,利用GAN网络,对所述二维视频画面进行拼接,生成全景视频画面;
判别步骤:将所述全景视频画面输入所述GAN网络进行判别,生成第一视点的全景视频画面;
重复步骤:提取另一视点拍摄的二维视频画面中的匹配点,重复拼接步骤与判别步骤,生成第二视点的全景视频画面;
组合步骤:将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合,生成全景立体视频。


2.如权利要求1所述的一种基于深度学习网络的视频画面立体拼接方法,其特征在于,基于所述二维视频画面中的匹配点,利用GAN网络,对所述二维视频画面进行拼接,生成全景视频画面,包括:
建立所述二维视频画面中的匹配点之间的初始匹配向量集合;
将所述初始匹配向量集合输入生成器G,获取配准匹配向量,生成配准匹配向量集合;
根据所述配准匹配向量集合,确定任意两个二维视频画面之间的配准关系;
根据所述配准关系,对所述二维视频画面进行拼接,生成所述全景视频画面。


3.如权利要求1所述一种基于深度学习网络的视频画面立体拼接方法,其特征在于,将所述全景视频画面输入所述GAN网络进行判别,生成第一视点的全景视频画面,包括:
将所述全景视频画面输入经过训练之后的判别器D进行判别,生成判别结果,并将所述判别结果反馈给所述生成器G;
若判别结果为伪,则所述生成器G生成下一轮的配准匹配向量集合;
根据所述下一轮的配准向量集合,确定所述任意两个二维视频画面之间的配准关系;
根据所述配准关系,对所述任两个二维视频画面进行拼接,生成下一轮的全景视频画面;
将所述下一轮的全景视频画面输入所述判别器D进行判别,生成判别结果;
若判别结果为伪,重复上述步骤,直至所述判别结果为真,生成所述第一视点的全景视频画面。


4.如权利要求3所述的一种基于深度学习网络的视频画面立体拼接方法,其特征在于,若判别结果为伪,则所述生成器G生成下一轮的配准匹配向量集合,包括:
若判别结果为伪,所述生成器G的神经网络调节神经元连接权重,生成匹配向量集合;
根据所述下一轮的匹配向量集合,获取下一轮的配准匹配向量,生成所述下一轮的配准匹配向量集合。


5.如权利要求1所述的一种基于深度学习网络的视频画面立体拼接方法,其特征在于,所述匹配点,包括以下任意一种:
SIFT特征点、HARRIS角点。


6.一种基于深度学习网络的...

【专利技术属性】
技术研发人员:鲍敏谢超
申请(专利权)人:重庆特斯联智慧科技股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1