一种实现语音分离的方法及装置制造方法及图纸

技术编号：36084880 阅读：26 留言：0更新日期：2022-12-24 11:00

本申请提供了一种实现语音分离的方法和装置，通过实时获取输入语音，然后将输入语音分割为语音段并按时间顺序进行排列，再提取语音段特征，并将所述语音段特征与实例特征和类别特征进行对比并生成分数，由此实现对所述语音段特征进行类别预测，最后将类别预测结果一致的语音段按照时间顺序进行拼接，得到分离后的语音序列；由于只将语音段特征与所述实例特征与类别特征进行特征对比，无需进行其他转化类型的运算，省去了繁琐的数据计算过程，所以计算量小，耗时短。耗时短。耗时短。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现语音分离的方法及装置

[0001]本申请涉及信号处理
，尤其涉及一种实现语音分离的方法及装置。

技术介绍

[0002]近年来，线上会议技术的兴起方便了人们日常生活以及办公学习等方面，在进行线上会议时，参会者往往不止一个，大家在会议中各抒己见时，若需要记录各个参会者的意见，由专人记录则效率较低而且容易出现记录不清的情况，而在生活场景中，当多人进行讨论时，如要分析录音，也存在着可能分离不准确且效率低的情况。
[0003]基于此，出现了语音分离技术，现有技术中，一般是对输入语音的时频域信号进行处理，将时频域信号一致的语音信号按照时域特征进行拼接得到分离出的语音信号，由于其处理过程需要大量运算，导致其存在耗时长的问题。

技术实现思路

[0004]基于此，本申请提供了一种实现语音分离的方法和装置，旨在减少语音分离所需时间。
[0005]第一方面，本申请实施例提供了一种实现语音分离的方法，所述方法包括：
[0006]实时获取输入语音；
[0007]将所述输入语音分割为至少一个语音段；
[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实现语音分离的方法，其特征在于，所述方法包括：实时获取输入语音；将所述输入语音分割为至少一个语音段；将所述语音段按时间顺序排列；对所述语音段进行类别预测；将类别预测结果一致的语音段按照所述时间顺序进行拼接得到语音序列。2.根据权利要求1所述的方法，其特征在于，所述将所述输入语音分割为至少一个语音段包括：利用静音检测技术识别出所述输入语音中的语音信号及非语音信号，并在所述非语音信号持续期间将所述语音信号分割为至少一个语音段。3.根据权利要求1所述的方法，其特征在于，所述对所述语音段进行类别预测包括：将所述语音段确定为正样本，并利用数据增强方法构造与所述正样本对应的负样本；将所述正样本和所述负样本组合为正负样本对；将所述正负样本对投影到特征行空间作为实例特征，将所述正负样本对投影到特征列空间作为类别特征；通过骨干网络提取所述语音段的特征；将所述语音段特征分别与所述实例特征和所述类别特征进行对比，确定所述语音段的类别。4.根据权利要求3所述的方法，其特征在于，所述利用数据增强方法构造与所述正样本对应的负样本，包括：改变所述正样本的基频率、音速以及音量，添加噪声，生成与所述正样本对应的负样本。5.根据权利要求3所述的方法，其特征在于，所述将所述语音段特征分别与所述实例特征和所述类别特征进行对比，确定所述语音段的类别，包括：利用概率线性判别分析算法评价所述语音段特征与所述实例特征和所述类别特征的相近距离损失并生成分数，得到所述语音段特征与所述实例特征的第一相近距离损失分数，并得到所述语音段特征与所述类别特征的第二相近距离损失分数，其中，所述相近距离损失分数高低代表所述语音段特征与所述类别特征的相似程度的高低；根据所述第一相近距离损失分数和所述第...

【专利技术属性】
技术研发人员：冯晨，
申请(专利权)人：太保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人