音频播放方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：34352405 阅读：14 留言：0更新日期：2022-07-31 05:57

本发明专利技术公开了一种音频播放方法、装置、设备及计算机可读存储介质，属于音视频播放技术领域。本发明专利技术通过监测当前所输出的视频画面中是否存在预设特征图像；若存在，则获取所述预设特征图像的发声位置信息；获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；输出所述目标音频信号以进行音频播放。本发明专利技术解决了在播放音频时无法准确还原语音位置，语音临场感较差的技术问题，实现了提升音频播放时的语音临场感和辨识度的技术效果。效果。效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频播放方法、装置、设备及计算机可读存储介质

[0001]本专利技术涉及音视频处理
，尤其涉及一种音频播放方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着生活水平的日益提高，人们对日常生活中的娱乐产品性能和功能提出了更高的要求。在使用平板电脑、电视等视频播放设备观看视频节目时，人们往往希望得到更加逼真的视听体验，因此，对视频播放设备的音画质也提出了更高的要求。
[0003]一般在影视节目中，人物对话通常占据了很大的场景，故提高发声人的位置准确度，使得观众听见的人声与发声人在屏幕上一致，可以增强观众的临场感，大大提高用户的体验。目前大多播放设备使用左右两组喇叭发声，对于双声道立体声的声源还原较好，但对于单声道或立体声不强的双声道音源，音频播放效果就不是很理想。此外，也有一些通过虚拟环绕声技术来改善并营造一个虚拟立体声的效果，但由于其使用固定算法，故对于声音的定位也不够准确。
[0004]因此，现有技术中存在播放音频时无法准确还原语音位置，语音临场感较差的技术问题。

技术实现思路

[0005]本专利技术的主要目的在于提供一种音频播放方法、装置、设备及计算机可读存储介质，旨在解决播放音频时无法准确还原语音位置，语音临场感较差的技术问题。
[0006]为实现上述目的，本专利技术提供一种音频播放方法，所述方法包括以下步骤：
[0007]监测当前所输出的视频画面中是否存在预设特征图像；
[0008]若存在，则获取所述预设特征图像的发声位置信息；/>[0009]获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；
[0010]输出所述目标音频信号以进行音频播放。
[0011]可选地，所述获取所述预设特征图像的发声位置信息的步骤，包括：
[0012]根据所述预设特征图像的大小获取所述预设特征图像的距离信息；
[0013]获取所述预设特征图像的发声位置坐标信息，将所述发声位置坐标信息和所述距离信息作为所述发声位置信息。
[0014]可选地，所述根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号的步骤，包括：
[0015]根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号；
[0016]通过将所述目标语音信号与所述原始音频信号中的背景音信号混合，以得到重建声场位置后的所述目标音频信号。
[0017]可选地，所述根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号的步骤，包括：
[0018]根据所述发声位置坐标信息和所述距离信息分别获取第一系数和第二系数；
[0019]根据所述第一系数调节所述语音信号的参数得到左声道语音增强信号；
[0020]根据所述第二系数调节所述语音信号的参数得到右声道语音增强信号；
[0021]将所述左声道语音增强信号和所述右声道语音增强信号作为所述重建声场位置后的目标语音信号。
[0022]可选地，在所述根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号的步骤之前，还包括：
[0023]对所述原始音频信号进行分离得到所述背景音信号和所述语音信号。
[0024]可选地，所述预设特征图像为：人物嘴唇张开的图像，所述监测当前所输出的视频画面中是否存在预设特征图像的步骤，包括：
[0025]间隔预设时长提取当前输出的视频数据中的所述视频画面；
[0026]识别所述视频画面中的人脸图像，以监测所述人脸图像中是否存在所述人物嘴唇张开的图像。
[0027]可选地，所述输出所述目标音频信号以进行音频播放的步骤，包括：
[0028]发送所述目标音频信号至功率放大器，以将所述目标音频信号转换为相应的模拟信号；
[0029]通过所述模拟信号驱动相应的扬声器，以进行音频播放。
[0030]此外，本专利技术还提供一种音频播放装置，所述装置包括：
[0031]判断模块，用于监测当前所输出的视频画面中是否存在预设特征图像；
[0032]获取模块，用于若存在，则获取所述预设特征图像的发声位置信息；
[0033]调整模块，用于获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号，得到重建声场位置后的目标音频信号；
[0034]播放模块，用于输出所述目标音频信号以进行音频播放。
[0035]可选地，所述装置还包括：
[0036]分离模块，用于对所述原始音频信号进行分离得到所述背景音信号和所述语音信号。
[0037]上述本专利技术音频播放装置的各个功能模块在运行时所实现的步骤，可参照上述本专利技术音频播放方法的步骤，此处不再赘述。
[0038]此外，本专利技术还提供一种音频播放设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频播放程序，所述音频播放程序配置为实现如上述的音频播放方法的步骤。
[0039]此外，本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音频播放程序，所述音频播放程序被处理器执行时实现如上述的音频播放方法的步骤。
[0040]本专利技术通过监测当前所输出的视频画面中是否存在预设特征图像；若存在，则获取所述预设特征图像的发声位置信息；获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；输出所述目标音频信号以进行音频播放。
[0041]本专利技术根据发声位置信息对原始音频信号进行调整，重建原始音频信号的声场位置得到目标音频信号后，再进行音频播放，使得用户在观看视频时，所感知的语音位置与所看见的视频画面中的发声位置一致。解决了在播放音频时无法准确还原语音位置，语音临场感较差的技术问题，提升了播放音频时的语音临场感和辨识度，从而提高了用户的观看体验。
附图说明
[0042]图1是本专利技术实施例方案涉及的硬件运行环境的音频播放设备的结构示意图；
[0043]图2为本专利技术一种音频播放方法一实施例的流程示意图；
[0044]图3位本专利技术一种音频播放方法一实施例的具体流程示意图；
[0045]图4为本专利技术一种音频播放方法一实施例中的功能模块工作流程示例图；
[0046]图5为本专利技术一种音频播放装置的功能模块结构关系示意图。
[0047]本专利技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0048]应当理解，此处所描述的具体实施例仅仅用以解释本专利技术，并不用于限定本专利技术。
[0049]应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频播放方法，其特征在于，所述音频播放方法包括以下步骤：监测当前所输出的视频画面中是否存在预设特征图像；若存在，则获取所述预设特征图像的发声位置信息；获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；输出所述目标音频信号以进行音频播放。2.如权利要求1所述的音频播放方法，其特征在于，所述获取所述预设特征图像的发声位置信息的步骤，包括：根据所述预设特征图像的大小获取所述预设特征图像的距离信息；获取所述预设特征图像的发声位置坐标信息，将所述发声位置坐标信息和所述距离信息作为所述发声位置信息。3.如权利要求2所述的音频播放方法，其特征在于，所述根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号的步骤，包括：根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号；通过将所述目标语音信号与所述原始音频信号中的背景音信号混合，以得到重建声场位置后的所述目标音频信号。4.如权利要求3所述的音频播放方法，其特征在于，所述根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号的步骤，包括：根据所述发声位置坐标信息和所述距离信息分别获取第一系数和第二系数；根据所述第一系数调节所述语音信号的参数得到左声道语音增强信号；根据所述第二系数调节所述语音信号的参数得到右声道语音增强信号；将所述左声道语音增强信号和所述右声道语音增强信号作为所述重建声场位置后的目标语音信号。5.如权利要求3所述的音频播放方法，其特征在于，在所述根据所述发声位置信息调整所述原始音频信...

【专利技术属性】
技术研发人员：李新林，马连群，吴宜安，
申请(专利权)人：深圳创维RGB电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人