一种多说话人语音人声分离方法、终端设备及存储介质技术

技术编号：33050574 阅读：12 留言：0更新日期：2022-04-15 09:35

本发明专利技术涉及一种多说话人语音人声分离方法、终端设备及存储介质，该方法中包括：S1：采集不同说话人的语音，提取不同说话人的语音叠加生成混合音频，将用于组成混合音频的单人音频作为模型训练的标签音频，将所有混合音频和其对应的标签音频共同组成训练集；S2：构建人声分离模型，用于将输入的混合音频分离为不同说话人对应的单人音频，通过训练集对人声分离模型进行训练，使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小；S3：通过训练后的人声分离模型对包含多个说话人的音频进行分离。本发明专利技术可以实现分离重叠部分的多个说话人语音,并且模型只有一个,不需要单独训练声纹提取模型和语音聚类模型。要单独训练声纹提取模型和语音聚类模型。要单独训练声纹提取模型和语音聚类模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种多说话人语音人声分离方法、终端设备及存储介质

[0001]本专利技术涉及语音识别领域，尤其涉及一种多说话人语音人声分离方法、终端设备及存储介质。

技术介绍

[0002]随着语音识别技术的不断发展,越来越多的智能设备通过语音识别等语音相关的技术来实现人机交互的功能,例如智能音箱、智能手机等设备,通过这些智能设备,人们可以更方便的通过语音来进行设备的相关操作。
[0003]在会议的场景当中,通常会使用录音笔将所有说话人的语音录制下来,然后会议结束后将语音转为文字保存下来,但是由于同一条录音中包含了多个说话人的语音,所以在将语音转为文字的时候,无法区分每一句语音是哪个说话人说的,此时就需要通过人声分离的技术将同一段音频当中不同说话人的语音区分开来,然后再对不同说话人的语音单独进行识别。
[0004]传统的人声分离采用的是基于语音声纹信息的聚类方法，先将音频进行等长分段,然后提取各个音频片段的说话人声纹信息，最后再对所有的音频片段的说话人声纹信息进行分类，将同一个说话人的音频片段拼接在一起，实现各个说话人语音的分离。该方法是基于语音聚类的方式实现说话人语音的分离,该方法的问题在于无法将多个说话人语音重叠的部分进行分离,并且分离的准确率受到声纹信息提取系统的影响,如果声纹信息提取系统的准确率不高,会影响音频分类的效果。

技术实现思路

[0005]为了解决上述问题，本专利技术提出了一种多说话人语音人声分离方法、终端设备及存储介质。
[0006]具体方案如下：
[0007]一种多...

【技术保护点】

【技术特征摘要】
1.一种多说话人语音人声分离方法，其特征在于，包括以下步骤：S1：采集不同说话人的语音，提取不同说话人的语音叠加生成混合音频，将用于组成混合音频的单人音频作为模型训练的标签音频，将所有混合音频和其对应的标签音频共同组成训练集；S2：构建人声分离模型，用于将输入的混合音频分离为不同说话人对应的单人音频，通过训练集对人声分离模型进行训练，使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小；S3：通过训练后的人声分离模型对包含多个说话人的音频进行分离。2.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：步骤S1中采集不同说话人的语音的具体方法为：通过录音笔采集M个说话人的语音，每个说话人的语音为每个人录制的L条固定长度的音频，录制的音频内容为说话人对固定文本内容的朗读语音。3.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：步骤S1中提取不同说话人的语音叠加生成混合音频的方法为：从所有说话人中随机选取N个说话人，针对N个说话人，从说话人对应的多条音频内随机选取一条音频，将得到的N条音频通过线性相加的方式叠加生成混合音频。4.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：步骤S1中还包括：将训练集中的混合音频转换为一维音频数据。5.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：人声分离模型的网络结构包括三个模块，分别为Encoder模块、Separation模块和Decoder模块，其中，Encoder模块用对输入的混合音频进行编码,将一维音频数据转换为二维矩阵结构；Separation模块用于对二维矩阵结构的混合音频进行分离,生成用于分离音频的掩膜；Decoder模块用于对Separation模块输出的分离后音频进行解码，将二维矩阵结构还原为一维音频数据。6.根据权利要求5所述的多说话人语音人声分离方法，其特征在于：Encoder模块的网络结构由一个1
‑
D Conv网络组成，将输...

【专利技术属性】
技术研发人员：陈剑超，肖龙源，李稀敏，叶志坚，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人