一种语音分割方法、装置、计算机设备及介质制造方法及图纸

技术编号：41635540 阅读：11 留言：0更新日期：2024-06-13 02:31

本发明专利技术涉及计算机技术领域，公开了一种语音分割方法、装置、计算机设备及介质，该方法包括：获取待分割的多通道语音；对待分割的多通道语音进行语音增强处理；从语音增强处理后的多通道语音中选取参考通道，对参考通道的语音进行检测得到语音检测信息；根据语音检测信息、处理后的多通道语音和预设的分割片段时长对多通道语音进行分割得到多个小片段语音数据；提取声纹向量和方向特征向量；将声纹向量和方向特征向量进行特征合并得到特征矢量；对特征矢量进行聚类得到每个小片段语音数据对应的说话人标签；根据说话人标签将多个小片段语音数据进行分割。本发明专利技术通过将声纹向量和方向特征向量进行特征合并得到特征矢量，提高了语音的分割性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体涉及一种语音分割方法、装置、计算机设备及介质。

技术介绍

1、自动会议纪要是当前会议一体机产品的关键功能之一，其核心功能是解决谁在什么时间说了什么，即提取每个参会人员的语音内容。而区分不同人的语音，即把多人语音分割出来，是整个会议一体机产品的核心功能之一。

2、当前技术上，通常采用声纹的方法，即通过声纹模型提取每个小的时间片的声纹向量，如i-vector或者基于深度学习模型提取的d-vector等，而后通过聚类，把所有小片段进行归并，完成说话人分割。也有基于方位的分割方法，即把空间按照角度分辨率切割成多份，再计算各个语音片段的方位，把对应方位语音片段打上事先做好的分割类别标签，完成说话人分割。

3、基于声纹的方法通常将语音切成小片段，如1～2秒，能够抽取的声纹信息十分有限，从而导致聚类通常并不那么准确。而基于方位的方法，通常方位区分度并不那么高，造成邻近的人很容易被判为同一人，加上空间分割势必产生“边界”问题，比如一个空间为[-30°,30°]，如果说话人恰好在30°，那么有些语音判为该...

【技术保护点】

1.一种语音分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待分割的多通道语音进行语音增强处理得到处理后的多通道语音，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述参考通道的语音进行检测得到语音检测信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述语音检测信息、所述处理后的多通道语音和预设的分割片段时长对所述多通道语音进行分割得到多个小片段语音数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述提取所述多个小片段语音数据的声纹向量和方向特征向量，包括：

...

【技术特征摘要】

1.一种语音分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待分割的多通道语音进行语音增强处理得到处理后的多通道语音，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述参考通道的语音进行检测得到语音检测信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述提取所述多个小片段语音数据的声纹向量和方向...

【专利技术属性】
技术研发人员：关海欣，谭小彬，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人