一种多说话人语音人声分离方法、终端设备及存储介质技术

技术编号:33050574 阅读:12 留言:0更新日期:2022-04-15 09:35
本发明专利技术涉及一种多说话人语音人声分离方法、终端设备及存储介质,该方法中包括:S1:采集不同说话人的语音,提取不同说话人的语音叠加生成混合音频,将用于组成混合音频的单人音频作为模型训练的标签音频,将所有混合音频和其对应的标签音频共同组成训练集;S2:构建人声分离模型,用于将输入的混合音频分离为不同说话人对应的单人音频,通过训练集对人声分离模型进行训练,使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小;S3:通过训练后的人声分离模型对包含多个说话人的音频进行分离。本发明专利技术可以实现分离重叠部分的多个说话人语音,并且模型只有一个,不需要单独训练声纹提取模型和语音聚类模型。要单独训练声纹提取模型和语音聚类模型。要单独训练声纹提取模型和语音聚类模型。

【技术实现步骤摘要】
一种多说话人语音人声分离方法、终端设备及存储介质


[0001]本专利技术涉及语音识别领域,尤其涉及一种多说话人语音人声分离方法、终端设备及存储介质。

技术介绍

[0002]随着语音识别技术的不断发展,越来越多的智能设备通过语音识别等语音相关的技术来实现人机交互的功能,例如智能音箱、智能手机等设备,通过这些智能设备,人们可以更方便的通过语音来进行设备的相关操作。
[0003]在会议的场景当中,通常会使用录音笔将所有说话人的语音录制下来,然后会议结束后将语音转为文字保存下来,但是由于同一条录音中包含了多个说话人的语音,所以在将语音转为文字的时候,无法区分每一句语音是哪个说话人说的,此时就需要通过人声分离的技术将同一段音频当中不同说话人的语音区分开来,然后再对不同说话人的语音单独进行识别。
[0004]传统的人声分离采用的是基于语音声纹信息的聚类方法,先将音频进行等长分段,然后提取各个音频片段的说话人声纹信息,最后再对所有的音频片段的说话人声纹信息进行分类,将同一个说话人的音频片段拼接在一起,实现各个说话人语音的分离。该方法是基于语音聚类的方式实现说话人语音的分离,该方法的问题在于无法将多个说话人语音重叠的部分进行分离,并且分离的准确率受到声纹信息提取系统的影响,如果声纹信息提取系统的准确率不高,会影响音频分类的效果。

技术实现思路

[0005]为了解决上述问题,本专利技术提出了一种多说话人语音人声分离方法、终端设备及存储介质。
[0006]具体方案如下:
[0007]一种多说话人语音人声分离方法,包括以下步骤:
[0008]S1:采集不同说话人的语音,提取不同说话人的语音叠加生成混合音频,将用于组成混合音频的单人音频作为模型训练的标签音频,将所有混合音频和其对应的标签音频共同组成训练集;
[0009]S2:构建人声分离模型,用于将输入的混合音频分离为不同说话人对应的单人音频,通过训练集对人声分离模型进行训练,使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小;
[0010]S3:通过训练后的人声分离模型对包含多个说话人的音频进行分离。
[0011]进一步的,步骤S1中采集不同说话人的语音的具体方法为:通过录音笔采集M个说话人的语音,每个说话人的语音为每个人录制的L条固定长度的音频,录制的音频内容为说话人对固定文本内容的朗读语音。
[0012]进一步的,步骤S1中提取不同说话人的语音叠加生成混合音频的方法为:从所有
说话人中随机选取N个说话人,针对N个说话人,从说话人对应的多条音频内随机选取一条音频,将得到的N条音频通过线性相加的方式叠加生成混合音频。
[0013]进一步的,步骤S1中还包括:将训练集中的混合音频转换为一维音频数据。
[0014]进一步的,人声分离模型的网络结构包括三个模块,分别为Encoder模块、Separation模块和Decoder模块,其中,Encoder模块用对输入的混合音频进行编码,将一维音频数据转换为二维矩阵结构;Separation模块用于对二维矩阵结构的混合音频进行分离,生成用于分离音频的掩膜;Decoder模块用于对Separation模块输出的分离后音频进行解码,将二维矩阵结构还原为一维音频数据。
[0015]进一步的,Encoder模块的网络结构由一个1

D Conv网络组成,将输入的混合音频经过1

D Conv网络后的输出结果与输入的混合音频进行结合后,作为Encoder模块的输出结果;1

D Conv网络为用于对音频数据进行编码的卷积网络。
[0016]进一步的,1

D Conv网络依次包括一层1*1大小的卷积层、一层PReLU激活函数层、一层归一化层、一层卷积层、一层PReLU激活函数层、一层归一化层和一层1*1大小的卷积层。
[0017]进一步的,Separation模块的输入为Encoder模块的输出结果,Encoder模块的输出结果依次通过一层归一化层、一层1*1大小的卷积层和多个1

D Conv网络后,将所有1

D Conv网络的输出结果进行叠加,并将叠加结果依次经过一层PReLU激活函数层、一层1*1大小的卷积层和Sigmoid激活函数层,将Sigmoid激活函数层的输出结果与Encoder模块的输出结果进行相乘的结果作为Separation模块的输出结果。
[0018]进一步的,Decoder模块的网络结构由一个1

D Conv网络组成,将输入的Separation模块的输出结果经过1

D Conv网络后的输出结果作为Decoder模块的输出结果。
[0019]一种多说话人语音人声分离终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0020]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0021]本专利技术采用如上技术方案,构建的人声分离模型中采用端到端方法来实现多人说话音频的人声分离,可以实现分离重叠部分的多个说话人语音,并且模型只有一个,不需要单独训练声纹提取模型和语音聚类模型。
附图说明
[0022]图1所示为本专利技术实施例一的流程图。
[0023]图2所示为该实施例中模型的网络结构示意图。
[0024]图3所示为该实施例中模型的具体网络结构示意图。
[0025]图4所示为该实施例中Encoder模块的网络结构示意图。
具体实施方式
[0026]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部
分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0027]现结合附图和具体实施方式对本专利技术进一步说明。
[0028]实施例一:
[0029]本专利技术实施例提供了一种多说话人语音人声分离方法,如图1所示,所述方法包括以下步骤:
[0030]S1:采集不同说话人的语音,提取不同说话人的语音叠加生成混合音频,将用于组成混合音频的单人音频作为模型训练的标签音频,将所有混合音频和其对应的标签音频共同组成训练集。
[0031]真实场景中说话人的语音应为真实场景中的语音,该实例中采集不同说话人的语音的具体方法为:通过录音笔采集M个说话人的语音,每个说话人的语音为每个人录制的L条固定长度的音频,录制的音频内容为说话人对固定文本内容的朗读语音。M、L和固定长度的取值本领域技术人员可以根据需求自行设定,在此不做限定,该实施例中设定M和L均为100,固定长度为10秒。为了方便后续本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多说话人语音人声分离方法,其特征在于,包括以下步骤:S1:采集不同说话人的语音,提取不同说话人的语音叠加生成混合音频,将用于组成混合音频的单人音频作为模型训练的标签音频,将所有混合音频和其对应的标签音频共同组成训练集;S2:构建人声分离模型,用于将输入的混合音频分离为不同说话人对应的单人音频,通过训练集对人声分离模型进行训练,使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小;S3:通过训练后的人声分离模型对包含多个说话人的音频进行分离。2.根据权利要求1所述的多说话人语音人声分离方法,其特征在于:步骤S1中采集不同说话人的语音的具体方法为:通过录音笔采集M个说话人的语音,每个说话人的语音为每个人录制的L条固定长度的音频,录制的音频内容为说话人对固定文本内容的朗读语音。3.根据权利要求1所述的多说话人语音人声分离方法,其特征在于:步骤S1中提取不同说话人的语音叠加生成混合音频的方法为:从所有说话人中随机选取N个说话人,针对N个说话人,从说话人对应的多条音频内随机选取一条音频,将得到的N条音频通过线性相加的方式叠加生成混合音频。4.根据权利要求1所述的多说话人语音人声分离方法,其特征在于:步骤S1中还包括:将训练集中的混合音频转换为一维音频数据。5.根据权利要求1所述的多说话人语音人声分离方法,其特征在于:人声分离模型的网络结构包括三个模块,分别为Encoder模块、Separation模块和Decoder模块,其中,Encoder模块用对输入的混合音频进行编码,将一维音频数据转换为二维矩阵结构;Separation模块用于对二维矩阵结构的混合音频进行分离,生成用于分离音频的掩膜;Decoder模块用于对Separation模块输出的分离后音频进行解码,将二维矩阵结构还原为一维音频数据。6.根据权利要求5所述的多说话人语音人声分离方法,其特征在于:Encoder模块的网络结构由一个1

D Conv网络组成,将输...

【专利技术属性】
技术研发人员:陈剑超肖龙源李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1