语音分离方法和语音分离装置制造方法及图纸

技术编号：25954672 阅读：23 留言：0更新日期：2020-10-17 03:47

本申请提供了一种语音分离方法和语音分离装置，该语音分离方法包括：获取目标语音，目标语音的结束时间为当前时间，且目标语音的时长等于预定时间；将目标语音切分为多个目标语音片段；将多个目标语音片段输入语音数据库；将多个目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，分离模型包括至少一个声纹特征模块，声纹特征模块与说话人一一对应，分离模型至少重新建立两次，每次建立时根据当前的语音数据库建立，且任意两次建立的分离模型为根据不同的语音数据库建立的。上述方法通过重建进行修正，以确保语音片段集合中的目标语音片段为同一个说话人的语音，提高了语音分离的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音分离方法和语音分离装置
本申请涉及语音处理
，具体而言，涉及一种语音分离方法和语音分离装置。
技术介绍
目前对于多人说话人分离，业内通常的做法是使用硬件设备(如麦克风阵列、双向麦克风等)进行声音收集上的说话人分离，或者使用声音特征的聚类分类算法在单声道音频上进行说话人分离。说话人分离本身只是将人声音频按照不同发音人进行分类的操作，其中不涉及声音所属发音人的具体身份的识别，对声音所属发音人具体身份的识别属于声纹识别(说话人识别)技术解决的问题。依赖于麦克风等硬件的话者分离系统受制于硬件本身，使用起来灵活性较差，可适用的场景也非常局限。而现有的不依赖于硬件的多人说话人分离技术在落地时主要有两个问题很难解决，第一个问题是说话人数不确定的问题，第二个问题是分离模型通常具有一种不可折返的单向性，即分离模型的实时更新一般都是基于已有分离模型，分离模型更新的方向受已有分离模型的影响很大。现有技术中进行说话人分离的基础是对已有声音特征的类中心点和初始化的预设类中心点进行分类，其中缺少了对已有声音特征类中心点进行合并...

【技术保护点】
1.一种语音分离方法，其特征在于，包括：/n获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；/n将所述目标语音切分为多个目标语音片段；/n将多个所述目标语音片段输入语音数据库；/n将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。/n

【技术特征摘要】
1.一种语音分离方法，其特征在于，包括：
获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；
将所述目标语音切分为多个目标语音片段；
将多个所述目标语音片段输入语音数据库；
将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。

2.根据权利要求1所述的方法，其特征在于，所述分离模型的建立满足以下之一：
所述分离模型的第N次建立的时间和第N+1次建立的时间的间隔为预定时间间隔、
所述分离模型的第N次建立时的所述语音数据库中的所述目标语音片段的数量和第N+1次建立时的所述语音数据库中的所述目标语音片段的数量的差为预定数量。

3.根据权利要求2所述的方法，其特征在于，所述预定时间间隔为相邻两次获取所述目标语音的时间间隔。

4.根据权利要求1所述的方法，其特征在于，建立所述分离模型的过程，包括：
对当前的所述语音数据库中的所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；
将多个所述声纹特征进行聚类分析，得到至少一个类中心，一种所述声纹特征对应一个所述类中心；
根据所述类中心建立对应的声纹特征模块，至少一个所述声纹特征模块构成所述分离模型。

5.根据权利要求1所述的方法，其特征在于，将多个所述目标语音片段输入分离模型进行分类，得到各所述说话人的语音片段集合，包括：
对多个所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；
根据所述声纹特征确定所述目标语音片段对应的声纹特征模块；
根据所述声纹特征模块与所述说话人的对应关系，确定各所述说话人的语音片段集合。

6.根据权利要求1所述的方法，其特征在于，在建立所述分离模型之后，在将多个所述目标语音片段输入分离模型进行分类之前，所述方法还包括：
将已知的说话人标识和对应的所...

【专利技术属性】
技术研发人员：杨剑宇，李健，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人