【技术实现步骤摘要】
语音处理方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,尤其涉及语音识别
,具体涉及一种语音处理方法、装置、电子设备及存储介质。
技术介绍
[0002]人工智能是研究使计算机模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]在智能客服、会议讨论、访谈对话、公安审讯、综艺节目等场景中,往往单个声道上有多个说话人。因此,一般都需要对录制下来的音频通过系统进行人声分离,然后再进行针对性的分析。在这个过程中,可以通过给定说话人个数或按某一聚类阈值对音频中提取的声谱特征进行聚类从而实现对不同说话人的语音片段进行分离。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否 ...
【技术保护点】
【技术特征摘要】
1.一种语音处理方法,包括:获取输入音频的多个初始声谱特征;对所述多个初始声谱特征进行增强以得到对应的多个增强声谱特征;对于所述多个增强声谱特征中的每个增强声谱特征,确定该增强声谱特征与其他增强声谱特征之间的相似度;以及基于所述多个增强声谱特征之间的相似度对所述多个增强声谱特征进行聚类,其中属于同一类别的增强声谱特征属于同一说话人。2.如权利要求1所述的语音处理方法,其中,对所述多个初始声谱特征进行增强以得到对应的多个增强声谱特征包括:对于所述多个初始声谱特征中的每个初始声谱特征,利用至少一个增强矩阵对该初始声谱特征进行处理以得到对应的增强声谱特征。3.如权利要求2所述的语音处理方法,其中,利用至少一个增强矩阵对该初始声谱特征进行处理以得到对应的增强声谱特征包括:利用第一增强矩阵和第二增强矩阵对该初始声谱特征进行处理以得到对应的增强声谱特征,其中,所述第一增强矩阵是基于白化模型确定的,所述第二增强矩阵是基于主成分分析模型确定的。4.如权利要求1所述的语音处理方法,其中,对于所述多个增强声谱特征中的每个增强声谱特征,确定该增强声谱特征与其他增强声谱特征之间的相似度包括:基于概率线性判别分析模型对该增强声谱特征和另一增强声谱特征进行处理,以得到该增强声谱特征和另一增强声谱特征之间的相似度。5.如权利要求1所述的语音处理方法,其中,基于所述多个增强声谱特征之间的相似度对所述多个增强声谱特征进行聚类包括:基于所述相似度确定各个增强声谱特征之间的路径权重;根据所述路径权重,对所述多个增强声谱特征进行路径整合聚类,以将所述多个增强声谱特征聚类为预定数量的类别。6.如权利要求1所述的语音处理方法,其中,获取输入音频的多个初始声谱特征包括:基于时延神经网络对所述输入音频中的各个音频帧进行处理,以得到所述多个初始声谱特征。7.如权利要求1所述的语音处理方法,还包括:基于聚类结果对所述输入音频进行划分,以得到对应于说话人的音频片段。8.一种训练语音处理模型的方法,包括:获取样本音频的多个样本初始声谱特征,其中所述样本音频中包括对应于至少两个说话人的至少两个样本音频片段;对所述多个样本初始声谱特征进行增强以得到对应的多个样本增强声谱特征;对于所述多个样本增强声谱特征中的每个样本增强声谱特征,确定该样本增强声谱特征与其他样本增强声谱特征之间的相似度;基于所述多个样本增强声谱特征之间的相似度对所述多个样本增强声谱特征进行聚类,其中属于同一类别的增强声谱特征属于同一说话人;
基于聚类结果对所述样本音频进行划分,以得到对应于所述至少两个说话人的至少两个预测音频片段;以及基于所述样本音频片段和所述预测音频片段之间的差异调整语音处理模型的参数。9.如权利要求8所述的方法,其中,对于所述多个样本增强声谱特征中的每个样本增强声谱特征,确定该样本增强声谱特征与其他样本增强声谱特征之间的相似度包括:基于概率线性判别分析模型对该样本增强声谱特征和另一样本增强声谱特征进行处理,以得到该样本增强声谱特征和另一样本增强声谱特征之间的相似度。10.如权利要求9所述的方法,其中,所述概率线性判别分析模型包括第一分析矩阵和第二分析矩阵,所述第一分析矩阵和所述第二分析矩阵的初始参数是预训练得到的。11.如权利要求10所述的方法,其中,基于所述样本音频片段和所述预测音频片段之间的差异调整语音处理模型的参数包括:基于所...
【专利技术属性】
技术研发人员:赵情恩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。