图像融合模型的训练方法、图像生成方法及其装置制造方法及图纸

技术编号:33876031 阅读:13 留言:0更新日期:2022-06-22 17:04
本公开涉及图像融合模型的训练方法、图像生成方法及其装置。提供了一种基于神经网络的图像融合模型的训练方法,包括:接收特定场景的M个输入图像,其中M为大于或等于3的整数;基于M个输入图像生成场景的三维全局网格;选择M个输入图像中的一个输入图像,作为参考图像;使用M个输入图像中的M

【技术实现步骤摘要】
图像融合模型的训练方法、图像生成方法及其装置


[0001]本公开总体上涉及图像融合模型的训练方法、图像生成方法及其 装置和介质。

技术介绍

[0002]对实时、逼真、易于捕获、适用于自由视角、交互式导航的3D 内容的需求越来越大。在已经获得场景的多个视角(或视点)的图像 的情况下,期望容易地获得与该多个视角不同的视角的图像。

技术实现思路

[0003]在下文中给出了关于本公开的简要概述,以便提供关于本公开的 一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开 的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部 分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式 给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0004]根据本公开的一个方面,提供一种基于神经网络的图像融合模型 的训练方法,包括:接收特定场景的M个输入图像,其中M为大于 或等于3的整数;基于所述M个输入图像生成所述场景的三维全局网 格;选择所述M个输入图像中的一个输入图像,作为参考图像;使用 所述M个输入图像中的M

1个非参考图像,生成针对所述参考图像 的视角的n个马赛克图像,其中n为大于或等于2的整数并且n小于 或等于M

1;将所述三维全局网格和n个马赛克图像作为训练图像输 入所述融合模型,生成与所述参考图像的视角相同的视角的预测图像; 使用代价函数计算所述预测图像和所述参考图像之间的误差;以及使 用所述误差调整所述图像融合模型的融合权重,以减小所述误差。
[0005]根据本公开的一个方面,提供一种图像生成方法,包括:接收特 定场景的L个输入图像,其中L为大于或等于2的整数;基于所述L 个输入图像生成所述场景的三维全局网格;选择与所述L个输入图像 的视角不同的新视角;使用所述L个输入图像生成针对所述新视角的 n个马赛克图像,其中n为大于或等于2的整数并且n小于或等于L; 将所述三维全局网格和n个马赛克图像输入通过根据上述方法获得的 图像融合模型,生成所述新视角的预测图像。
[0006]根据本公开的另一个方面,提供一种基于神经网络的图像融合模 型的训练装置,包括:存储器,其上存储有指令;以及处理器,被配 置为执行存储在所述存储器上的指令,以执行上述基于神经网络的图 像融合模型的训练方法。
[0007]根据本公开的另一个方面,提供一种图像生成装置,包括:存储 器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器 上的指令,以执行上述图像生成方法。
[0008]根据本公开的又一个方面,提供一种计算机可读存储介质,其包 括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器 执行时,使得所述一个或多个处理器执行根据本公开的上述任一方面 所述的方法。
附图说明
[0009]构成说明书的一部分的附图描述了本公开的实施例,并且连同说 明书一起用于解释本公开的原理。
[0010]参照附图,根据下面的详细描述,可以更清楚地理解本公开,其 中:
[0011]图1示出了本公开要应用于的场景的一个示例。
[0012]图2示出了图像及其三维全局网格的示例。
[0013]图3示出了马赛克图像的生成流程的一个示例。
[0014]图4是用于说明马赛克图像的不同网格的马赛克生成的示意图。
[0015]图5是用于说明马赛克图像的不同网格的马赛克生成的示意图。
[0016]图6示出了根据本公开的基于神经网络的图像融合模型的训练方 法的流程示例。
[0017]图7示出了根据本公开的卷积神经网络架构的示例。
[0018]图8示出了新视角图像的预测过程的示例。
[0019]图9示出了根据本公开的一个实施例的基于神经网络的图像融合 模型的训练和融合过程的示例。
[0020]图10示出了可以实现根据本公开的实施例的计算设备的示例性 配置。
具体实施方式
[0021]参考附图进行以下详细描述,并且提供以下详细描述以帮助全面 理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解, 但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由 随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语 仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可 能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将 认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的 示例进行各种改变和修改。
[0022]在三维赛事直播、三维实时视频监控、三维旅游等场景中,经常 需要对图像进行融合。以实况视频转播为例,如图1所示,足球场周 围的摄像头捕获实时视频以后,期望根据客户端的视角,融合三维视 频影像,并发送给客户端。
[0023]为此,本公开提出了一种图像融合技术。例如,针对图1所示的 应用场景,通过本公开的融合技术,观看一场足球比赛就如身在其中, 观众可以从任何角度观看比赛,可以在虚拟场景跑动,所看到的图像 随其在三维空间的位置不同而不同。
[0024]根据本公开的一个实施例的基于神经网络的图像融合模型的训练 方法包括:接收特定场景的M个输入图像,其中M为大于或等于3 的整数;基于所述M个输入图像生成所述场景的三维全局网格;选择 所述M个输入图像中的一个输入图像,作为参考图像;使用所述M 个输入图像中的M

1个非参考图像,生成针对所述参考图像的视角的 n个马赛克图像,其中n为大于或等于2的整数并且n小于或等于 M

1;将所述三维全局网格和n个马赛克图像作为训练图像输入所述 图像融合模型,生成与所述参考图像的视角相同的视角的预测图像; 使用代价函数计算所述预测图像和所述参考图像之间的误差;以及使 用所述误差调整所述图像融合模型的融合权重,以减小所述误差。
[0025]在一个实施例中,上述方法还可以包括迭代生成预测图像的步骤、 计算误差的步骤以及调整融合权重的步骤,直到所述误差小于预定值 或者迭代次数达到预定次数。
[0026]在接收特定场景的M个输入图像的步骤中,在收集到一组图像以 后,本公开通过相机的移动来确定目标的空间和几何关系(SFM),并 生成三维全局网格。图2示出了图像及其三维全局网格的示例。作为 可选方式,在生成三维全局网格时,还可以通过多视角立体视觉(MVS) 计算图像深度,并建立本地深度图。
[0027]为了从现有视角拍摄的图像生成新视角的图像,本公开除了图3 所示的三维全局网格以外,还需要生成n幅马赛克图像。n是大于或 等于2的整数并且n小于或等于M

1。
[0028]在一个实施例中,生成针对所述参考图像的视角的n个马赛克图 像的步骤可以包括:针对所述三维全局网格中的每个网格:计算所述 M

1个非参考图像在该网格上的权重;选择权重较高的n个非参考图 像;获得所述n个非参考图像在该网格上的扭曲投影;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的图像融合模型的训练方法,包括:接收特定场景的M个输入图像,其中M为大于或等于3的整数;基于所述M个输入图像生成所述场景的三维全局网格;选择所述M个输入图像中的一个输入图像,作为参考图像;使用所述M个输入图像中的M

1个非参考图像,生成针对所述参考图像的视角的n个马赛克图像,其中n为大于或等于2的整数并且n小于或等于M

1;将所述三维全局网格和n个马赛克图像作为训练图像输入所述图像融合模型,生成与所述参考图像的视角相同的视角的预测图像;使用代价函数计算所述预测图像和所述参考图像之间的误差;以及使用所述误差调整所述融合模型的融合权重,以减小所述误差。2.根据权利要求1所述的训练方法,其中,生成针对所述参考图像的视角的n个马赛克图像包括:针对所述三维全局网格中的每个网格:计算所述M

1个非参考图像在该网格上的权重;选择权重较高的n个非参考图像;获得所述n个非参考图像在该网格上的扭曲投影;和使用每个网格的所述扭曲投影,生成所述n个马赛克图像,其中,所述n个马赛克图像中的第一马赛克图像中的每个网格处的像素是通过对在该网格上的权重最高的非参考图像的与该网格对应的像素进行扭曲投影而获得的,所述n个马赛克图像中的第二马赛克图像中的每个网格处的像素是通过对在该网格上的权重第二高的非参考图像的与该网格对应的像素进行扭曲投影而获得的,依此类推。3.根据权利要求2所述的训练方法,其中,使用获得非参考图像的相机的镜头的法线和三维全局网格中的网格的法线之间的夹角的余弦值,作为该非参考图像在该网格上的权重。4.根据权利要求1所述的训练方法,其中,所述神经网络是卷积神经网络,以及与输入图像相比,所述预测图像和所述参考图像的四周都被裁...

【专利技术属性】
技术研发人员:周永翔干宏华杨蕊吴增德
申请(专利权)人:浙江省公众信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1