一种基于视频的人声分离方法、终端设备及存储介质技术

技术编号：33728276 阅读：16 留言：0更新日期：2022-06-08 21:22

本发明专利技术涉及一种基于视频的人声分离方法、终端设备及存储介质，该方法中包括：将任意两个不同说话人的视频片段对应的音频信息与一随机噪声合并为混合音频，将混合音频和两个视频片段对应的两组人脸信息作为一个训练数据；构建人声分离模型，人声分离模型对混合音频和人脸信息分别进行特征提取和特征处理后组合为一个组合特征，经过维度转换和全连接层转换为两个说话人特征，将两个说话人特征分别与混合音频特征相乘后得到特征频谱图并还原为音频数据；通过训练集对人声分离模型进行训练后，通过训练后的人声分离模型对带有人脸信息和音频信息的视频片段进行人声分离。本发明专利技术可以实现提取视频中指定说话人的干净说话语音。以实现提取视频中指定说话人的干净说话语音。以实现提取视频中指定说话人的干净说话语音。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频的人声分离方法、终端设备及存储介质

[0001]本专利技术涉及人声分离领域，尤其涉及一种基于视频的人声分离方法、终端设备及存储介质。

技术介绍

[0002]随着视频媒体技术的不断发展,越来越多的信息和内容通过视频的方式来进行展示,例如在互联网视频平台上,每天有无数的视频上传到平台。如果需要通过视频来获取其中的信息内容,用户会通过听取人物说的语音内容,但是由于视频中的说话人可能处于嘈杂的环境当中,或者视频中有多个说话人同时说话,导致无法清楚得听到说话人说话的内容,从而影响听取效果。
[0003]目前大部分的视频平台没有对视频中的说话人语音进行处理,通常是直接输出原声,这就导致原声容易受到环境的干扰。

技术实现思路

[0004]为了解决上述问题，本专利技术提出了一种基于视频的人声分离方法、终端设备及存储介质。
[0005]具体方案如下：
[0006]一种基于视频的人声分离方法，包括以下步骤：
[0007]S1：采集不同说话人对应的固定长度的视频片段，每个视频片段中包含了单一说话人对应的人脸信息和音频信息；
[0008]S2：从所有视频片段中提取任意两个不同说话人的视频片段，从音频噪声数据集中随机选取一个噪声音频，将提取的两个视频片段对应的两个音频信息和提取的噪声音频三者进行合并，将合并后的混合音频和提取的两个视频片段对应的两组人脸信息作为一个训练数据，将所有训练数据组成训练集；
[0009]S3：构建人声分离模型，通过训练集对人声分离模型进行训练...

【技术保护点】

【技术特征摘要】
1.一种基于视频的人声分离方法，其特征在于，包括以下步骤：S1：采集不同说话人对应的固定长度的视频片段，每个视频片段中包含了单一说话人对应的人脸信息和音频信息；S2：从所有视频片段中提取任意两个不同说话人的视频片段，从音频噪声数据集中随机选取一个噪声音频，将提取的两个视频片段对应的两个音频信息和提取的噪声音频三者进行合并，将合并后的混合音频和提取的两个视频片段对应的两组人脸信息作为一个训练数据，将所有训练数据组成训练集；S3：构建人声分离模型，通过训练集对人声分离模型进行训练，得到训练后的人声分离模型；人声分离模型对输入的混合音频和两组人脸信息分别进行特征提取和特征处理后组合为一个组合特征，将组合特征经过维度转换后，通过全连接层转换为两个说话人对应的两个说话人特征，将两个说话人特征分别与输入的混合音频特征进行相乘后得到两个说话人对应的特征频谱图，将特征频谱图还原为音频数据；模型训练过程中将模型输出的两个音频数据与输入的训练数据对应的两个说话人的真实音频信息的差值作为损失值，以损失值最小...

【专利技术属性】
技术研发人员：陈剑超，肖龙源，李稀敏，叶志坚，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人