语音处理的方法、装置、电子设备和介质制造方法及图纸

技术编号：35413871 阅读：25 留言：0更新日期：2022-11-03 11:11

本公开的实施例涉及语音处理的方法、装置、电子设备和介质。方法包括基于目标语音数据的帧级别声学特征，生成目标语音数据的字符级别语义特征。方法还包括基于帧级别声学特征，生成目标语音数据的字符级别声纹特征。方法还包括基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。根据本公开的实施例，结合说话人的声学特征和语音内容，在字符级别上来检测语音数据中的说话人转换，不需要后期处理就能够直接输出基于说话人的语音识别结果，简化了语音识别过程。别过程。别过程。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理的方法、装置、电子设备和介质

[0001]本公开的实施例涉及语音处理
，并且更具体地，涉及语音处理的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着互联网和人工智能(Artificial Intelligence，AI)技术的快速发展，自动语音识别(Automatic Speech Recognition，ASR)得到给人们的生活带来了极大的便利。在一些场景(例如，远程会议、远程教学)中，存在收集和整理语音内容的需要，希望将按照说话人角色来进行语音识别。然而，可能存在多人交替说话或同时说话的时间，这给语音识别带来了挑战。
[0003]说话人转换检测(Speech Conversion Detect，SCD)旨在定位不同说话人开始说话的时间，SCD系统通常用作说话人分割聚类的子模块，或用作语音识别任务的前端对长语音进行切割。SCD系统性能的好坏将很大程度地影响后续处理任务。

技术实现思路

[0004]有鉴于此，本公开的实施例提出了语音处理的技术方案。
[0005]根据本公开的第一方面，提供了一种语音处理的方法。方法包括：基于目标语音数据的帧级别声学特征，生成目标语音数据的字符级别语义特征；基于帧级别声学特征，生成目标语音数据的字符级别声纹特征；以及基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。
[0006]根据本公开的实施例，结合说话人的声学特征和语音内容，在字符级别上来检测语音数据中的说话人...

【技术保护点】

【技术特征摘要】
1.一种语音处理的方法，包括：基于目标语音数据的帧级别声学特征，生成所述目标语音数据的字符级别语义特征；基于所述帧级别声学特征，生成所述目标语音数据的字符级别声纹特征；以及基于所述字符级别语义特征和所述字符级别声纹特征，确定所述目标语音数据中的发生说话人转换的字符。2.根据权利要求1所述的方法，其中，基于目标语音数据的帧级别声学特征，生成所述目标语音数据的字符级别语义特征，包括：对所述帧级别声学特征进行语义编码以得到帧级别语义编码特征；基于所述帧级别语义编码特征，生成一组权重，所述一组权重中的权重逐帧地对应于所述帧级别语义编码特征中的针对帧的语义编码特征；以及基于所述一组权重和所述帧级别语义编码特征，生成所述字符级别语义特征。3.根据权利要求2所述的方法，其中，基于所述一组权重和所述帧级别语义编码特征生成所述字符级别语义特征序列包括：基于所述一组权重中的连续权重的累加值与阈值的比较，划分所述帧级别语义编码特征；以及基于经划分的帧级别语义编码特征和所述一组权重，生成所述字符级别语义特征。4.根据权利要求3所述的方法，其中，基于经划分的帧级别语义编码特征和所述一组权重，生成所述字符级别语义特征包括：基于经划分的帧级别语义编码特征和所述一组权重，生成所述目标语音数据的字符级别语义编码特征；以及基于所述字符级别语义编码特征，生成所述字符级别语义特征。5.根据权利要求4所述的方法，其中，基于所述字符级别语义编码特征生成所述字符级别语义特征包括：对所述字符级别语义编码特征进行语义解码，以得到字符级别语义解码特征；以及将所述字符级别语义解码特征和所述字符级别语义编码特征进行拼接，以生成所述字符级别语义特征。6.根据权利要求2所述的方法，其中，基于所述帧级别声学特征生成所述目标语音数据的字符级别声纹特征包括：对所述帧级别声学特征进行声纹编码，得到帧级别声纹编码特征；以及基于所述帧级别声纹编码特征和...

【专利技术属性】
技术研发人员：董林昊，梁镇麟，范志赟，刘艺，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人