视频处理设备和方法技术

技术编号：37771377 阅读：18 留言：0更新日期：2023-06-06 13:36

公开了一种根据实施例的视频处理装置，其包括至少一个处理器，其中所述至少一个处理器配置成通过基于第一深度神经网络(DNN)分析包括多个图像的视频信号，为每个时间和频率生成多个特征信息，基于第二DNN从所述视频信号中提取对应于视频中对象的运动的第一高度分量和第一平面分量，通过使用第三DNN从不具有高度分量的第一音频信号中提取对应于所述音频中声源的运动的第二平面分量，从所述第一高度分量、所述第一平面分量和所述第二平面分量生成第二高度分量，基于所述特征信息输出包括所述第二高度分量的第二音频信号，以及使所述第二音频信号与所述视频信号同步并输出所述信号。号。号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】视频处理设备和方法

[0001]本公开涉及处理视频的领域，更具体地，涉及生成三维音频信号的领域。更具体地，本公开涉及基于人工智能(AI)从二维音频信号生成包括多个声道的三维音频信号的领域。

技术介绍

[0002]音频信号通常是二维音频信号，诸如2声道、5.1声道、7.1声道和9.1声道音频信号。
[0003]然而，因为二维音频信号在高度方向上具有不确定的音频信息或没有音频信息(高度分量的音频信息)，所以有必要生成三维信息(n声道音频信号或多声道音频信号，其中n是大于2的整数)，以提供声音的空间立体效果。
[0004]因为普通的音频信号获取设备(例如，麦克风)只能获取二维音频信号，所以可以从二维音频信号中获得单独的声源，并且考虑到声源的运动，通过混合和监控来生成三维音频信号，但是这是非常困难且耗时的任务。
[0005]因此，需要一种通过将对应于二维音频信号的视频信号与二维音频信号一起使用来产生三维音频信号的方法。

技术实现思路

[0006]技术问题
[0007]提供本公开以通过使...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种视频处理装置，其包括：存储器，其存储一个或多个指令；以及至少一个处理器，其配置成执行存储在所述存储器中的所述一个或多个指令，其中所述至少一个处理器配置成：通过基于第一深度神经网络(DNN)分析包括多个图像的视频信号，生成关于每个时间和频率的多个特征信息；基于第二DNN从所述视频信号中提取对应于视频中对象的运动的第一高度分量和第一平面分量；通过使用第三DNN，从不具有高度分量的第一音频信号中提取与音频中声源的运动相对应的第二平面分量；从所述第一高度分量、所述第一平面分量和所述第二平面分量生成第二高度分量；基于所述特征信息输出包括所述第二高度分量的第二音频信号；以及将所述第二音频信号与所述视频信号同步，并输出所述信号。2.如权利要求1所述的视频处理装置，其中当生成关于每个时间和频率的所述多个特征信息时，所述至少一个处理器配置成：将所述视频信号与所述第一音频信号同步；通过使用用于生成关于每个时间和频率的所述多个特征信息的第一DNN，根据来自所述视频信号的所述视频中的对象的运动，生成M条一维图像特征映射信息(其中，M是大于或等于1的整数)；以及通过对所述一维图像特征映射信息执行与频率相关的平铺，生成包括关于时间和频率的所述M条图像特征映射信息的关于每个时间和频率的所述多个特征信息。3.如权利要求1所述的视频处理装置，其中当基于所述第二DNN提取所述第一高度分量和所述第一平面分量，并且基于所述第三DNN提取所述第二平面分量时，所述至少一个处理器配置成使所述视频信号与所述第一音频信号同步:通过使用用于提取与对应于所述第一高度分量的所述视频中水平方向上的运动相对应的特征映射信息的第(2
‑
1)DNN，从所述视频信号中提取对应于所述视频中所述水平方向上相对于时间的运动的N+M条特征映射信息(其中，N和M是大于或等于1的整数)；通过使用用于提取与对应于所述第一平面分量的所述视频中竖直方向上的运动相对应的特征映射信息的第(2
‑
2)DNN，从所述视频信号中提取对应于所述视频中所述竖直方向上相对于时间的运动的N+M条特征映射信息；通过使用用于提取与对应于所述第二平面分量的音频中所述水平方向上的运动相对应的特征映射信息的第三DNN，从所述第一音频信号中提取对应于所述音频中的所述水平方向上的运动的N+M条特征映射信息；以及当从所述第一高度分量、所述第一平面分量和所述第二平面分量生成所述第二高度分量时，所述至少一个处理器配置成：基于对应于所述视频中的所述水平方向上的运动的所述特征映射信息、对应于所述视频中的所述竖直方向上的运动的所述特征映射信息和对应于所述音频中的所述水平方向上的运动的所述特征映射信息，生成对应于所述第二高度分量的关于时间的N+M条校正映射信息；以及通过对关于时间的所述N+M条校正映射信息执行与频率相关的平铺，生成对应于所述
第二高度分量的关于时间和频率的N+M条校正映射信息。4.如权利要求1所述的视频处理装置，其中当基于所述特征信息输出包括所述第二高度分量的所述第二音频信号时，所述至少一个处理器配置成：通过对所述第一音频信号执行频率转换操作来产生关于2声道的时间和频率信息；通过使用用于生成所述第一音频信号中的音频特征的第(4
‑
1)DNN，从关于所述2声道的所述时间和频率信息中生成关于时间和频率的N条音频特征映射信息(其中，N是大于或等于1的整数)；基于包括在每个时间和频率的所述多个特征信息中的关于时间和频率的M条图像特征映射信息以及关于时间和频率的所述N条音频特征映射信息(其中，N是大于或等于1的整数)，生成N+M条音频/图像集成特征映射信息；通过使用用于生成频域第二音频信号的第(4
‑
2)DNN，从所述N+M条音频/图像集成特征映射信息中生成用于n声道的所述频域第二音频信号(其中，n是大于2的整数)；通过使用用于生成音频校正映射信息的第(4
‑
3)DNN，从与所述N+M条音频/图像集成特征映射信息和所述第二高度分量相对应的关于时间和频率的N+M条校正映射信息，生成用于所述n声道的所述音频校正映射信息；通过基于关于所述n声道的所述音频校正映射信息对关于所述n声道的所述频域第二音频信号执行校正，生成关于所述n声道的校正的频域第二音频信号；以及通过对关于所述n声道的所述校正的频域第二音频信号进行逆频率转换，输出关于所述n声道的所述第二音频信号。5.如权利要求3所述的视频处理装置，其中当生成关于时间的所述N+M条校正映射信息时，所述至少一个处理器配置成：基于通过考虑与所述视频中所述水平方向上的所述运动相对应的所述特征映射信息的第一值和与所述音频中所述水平方向上的所述运动相对应的所述特征映射信息的第二值以及与所述视频中所述竖直方向上的所述运动相对应的所述特征映射信息的第三值之间的关系而设置的比例数，生成相对于时间的所述N+M条校正映射信息的第四值；以及生成包括所述第四值的相对于时间的所述N+M条校正映射信息。6.如权利要求1所述的视频处理装置，其中基于用于输出所述第二音频信号的第四DNN来输出所述第二音频信号，以及根据第一训练二维音频信号和基于第一训练图像信号重构的第一频域训练重构三维音频信号与通过频率转换第一训练三维音频信号获得的第一频域训练三维音频信号的比较结果，对用于生成每个时间和频率的所述多个特征信息的所述第一DNN、用于提取所述第一高度分量和所述第一平面分量的所述第二DNN、用于提取所述第二平面分量的所述第三DNN以及用于输出所述第二音频信号的所述第四DNN进行训练。7.如权利要求3所述的视频处理装置，其中基于用于输出所述第二音频信号的第四DNN来输出所述第二音频信号，基于用户输入的参数信息，校正相对于时间和频率的所述N+M条校正映射信息，以及根据第一训练二维音频信号、第一训练图像信号和基于所述用户输入参数信息重构的频域训练重构三维音频信号...

【专利技术属性】
技术研发人员：南佑铉，孙允宰，郑铉权，黄盛凞，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人