一种语音处理方法、装置和用于语音处理的装置制造方法及图纸

技术编号：26973657 阅读：27 留言：0更新日期：2021-01-06 00:07

本发明专利技术实施例提供了一种语音处理方法、装置和用于语音处理的装置。其中的方法包括：获取待处理的语音数据；对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。本发明专利技术实施例可以提高说话者分割的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音处理方法、装置和用于语音处理的装置
本专利技术涉及计算机
，尤其涉及一种语音处理方法、装置和用于语音处理的装置。
技术介绍
说话者分割是指：在语音处理领域，从多人对话中自动地将语音依据说话者进行划分，并加以标记的过程。然而，由于噪声以及多个说话者语音交叠等带来的干扰，容易将对应语音数据误判为并不存在的新说话者，从而导致需要被区分的说话者的类别逐渐增加，语音被分割得越来越碎，最终影响说话者分割的准确率。
技术实现思路
本专利技术实施例提供一种语音处理方法、装置和用于语音处理的装置，可以提高说话者分割的准确率。为了解决上述问题，本专利技术实施例公开了一种语音处理方法，所述方法包括：获取待处理的语音数据；对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。另一方面，本专利技术实施例公开了一种...

【技术保护点】
1.一种语音处理方法，其特征在于，所述方法包括：/n获取待处理的语音数据；/n对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；/n基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。/n

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：
获取待处理的语音数据；
对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；
基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果，包括：
利用检测的所述语音数据中的各第一跳变点对所述语音数据进行切分，得到语音分段序列；
基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果，包括：
对所述语音分段序列中的各语音分段内进行滑窗，分别提取说话者表征特征；
根据提取的说话者表征特征确定各语音分段内的第二跳变点，所述第二跳变点为表示所述语音数据中说话者表征特征发生变化的时间点；
根据所述第二跳变点对所述各语音分段进行分割，得到分割结果。

4.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，包括：
基于所述语音数据中说话者表征特征的变化信息，检测所述语音数据中的第二跳变点；
基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点；
根据所述目标跳变点对所述语音数据进行分割，得到分割结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点，包括：
判断所述第二跳变点是否满足第一条件，所述第一条件包括：所述第二跳变点对应的第一时间点所在预设时间范围内存在第一跳变点；
若判定所述第二跳变点满足所述第一条件，则获取距离所述第一时间点最近的第一跳变点对应的第二时间点；
根据所述第一时间点和所述第二时间点，确定...

【专利技术属性】
技术研发人员：潘逸倩，姚升余，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人