音频处理方法、装置、处理器和系统制造方法及图纸

技术编号:35867653 阅读:20 留言:0更新日期:2022-12-07 11:00
本申请提供了一种音频处理方法、装置、处理器和系统,该方法包括:获取至少一个音频片段,并采用声纹识别模型对至少一个音频片段进行声纹识别,得到第一识别结果;在第一识别结果表征至少一个音频片段为非目标静音片段且至少一个音频片段的时长大于或等于第一时长阈值的情况下,获取第一识别结果中的最高识别分数;在至少一个音频片段的音频时长大于或者等于第二时长阈值且最高识别分数小于分数阈值的情况下,确定至少一个音频片段对应的角色为未知角色;将未知角色注册至声纹识别的模型库中。该方法通过未知角色分离算法,实现了语音角色分离的技术效果,解决了进行角色分离时通常需要提前注册说话者声纹的技术问题。通常需要提前注册说话者声纹的技术问题。通常需要提前注册说话者声纹的技术问题。

【技术实现步骤摘要】
音频处理方法、装置、处理器和系统


[0001]本申请涉及数据处理领域,具体而言,涉及一种音频处理方法、装置、处理器和系统。

技术介绍

[0002]目前,语音会议系统和笔录审讯系统都需要用到角色分离系统,用于将多个说话者的语音进行分离,并根据分离结果进行语音转写或说话者角色展示。
[0003]但是,目前的角色分离技术在进行声纹角色分离时,通常需要提前注册说话者的声纹,在实际应用场景中,其易用性差,准备工作成本高。
[0004]在
技术介绍
部分中公开的以上信息只是用来加强对本文所描述技术的
技术介绍
的理解,因此,
技术介绍
中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现思路

[0005]本申请的主要目的在于提供一种音频处理方法、装置、处理器和系统,以解决现有技术中进行声纹角色分离时需要提前注册说话者声纹的问题。
[0006]根据本专利技术实施例的一个方面,提供了一种音频处理方法,包括:获取至少一个音频片段,并采用声纹识别模型对所述至少一个音频片段进行声纹识别,得到第一识别结果;在所述第一识别结果表征所述至少一个音频片段为非目标静音片段且所述至少一个音频片段的时长大于或等于第一时长阈值的情况下,获取所述第一识别结果中的最高识别分数;在所述至少一个音频片段的音频时长大于或者等于第二时长阈值且所述最高识别分数小于分数阈值的情况下,确定所述至少一个音频片段对应的角色为未知角色,所述第二时长阈值大于所述第一时长阈值;将所述未知角色注册至所述声纹识别的模型库中。
[0007]可选地,在所述至少一个音频片段的音频时长大于等于第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为未知角色,包括:第一确定步骤,在所述至少一个音频片段的音频时长小于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为候选未知角色;第二确定步骤,获取所述至少一个音频片段的后续音频片段,得到第一更新音频片段,并对所述第一更新音频片段进行所述声纹识别,得到第二识别结果,在所述第二识别结果表征所述第一更新音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数大于所述分数阈值的情况下,将所述候选未知角色更新为已知角色,在所述第二识别结果表征所述第一更新音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于等于所述分数阈值的情况下,将所述候选未知角色更新为所述未知角色;在所述第二识别结果表征所述第一更新音频片段的音频时长小于所述第二时长阈值情况下,重复执行所述第二确定步骤,直到确定所述第一更新音频片段对应的角色为所述已知角色或者所述未知角色为止。
[0008]可选地,在所述至少一个音频片段的音频时长小于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为候选未知角色,包括:在所述至少一个音频片段的音频时长小于第一时长阈值且所述最高识别分数小于第一分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述候选未知角色;在所述至少一个音频片段的音频时长大于或者等于所述第一时长阈值且小于第三时长阈值以及所述最高识别分数大于或者等于所述第一分数阈值且小于第二分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述候选未知角色,所述第一时长阈值小于所述第三时长阈值,所述第一分数阈值小于所述第二分数阈值;在所述至少一个音频片段的音频时长大于或者等于所述第三时长阈值且小于第二时长阈值以及所述最高识别分数大于或等于所述第二分数阈值且小于第三分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述候选未知角色,所述第三时长阈值小于所述第二时长阈值,所述第二分数阈值小于所述第三分数阈值。
[0009]可选地,在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为未知角色,包括:在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述未知角色;在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数大于或者等于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为已知角色。
[0010]可选地,获取至少一个音频片段,并采用声纹识别模型对所述至少一个音频片段进行声纹识别,得到所述第一识别结果,包括:第三确定步骤,在所述第一识别结果表征所述至少一个音频片段为所述目标静音片段情况下,获取所述至少一个音频片段的时长,在所述至少一个音频片段的时长大于第四时长阈值的情况下,确定所述至少一个音频片段为所述目标静音片段,且对应的角色为空;第四确定步骤,在所述至少一个音频片段的时长小于或者等于所述第四时长阈值的情况下,获取所述至少一个音频片段的后续音频片段,得到第二更新音频片段,并对所述第二更新音频片段进行所述声纹识别,得到第三识别结果,在所述第三识别结果表征所述第二更新音频时长大于所述第四时长阈值的情况下,确定所述至少一个音频片段为所述目标静音片段;在所述第三识别结果表征所述第二更新音频片段的音频时长小于等于所述第四时长阈值的情况下,重复执行所述第四确定步骤,直到确定所述第二更新音频片段为所述目标静音片段或所述非目标静音片段为止。
[0011]可选地,在所述至少一个音频片段的时长大于所述第四时长阈值的情况下,确定所述至少一个音频片段为所述目标静音片段,包括:在所述至少一个音频片段的时长大于第二时长阈值的情况下,确定所述至少一个音频片段为所述目标静音片段;在所述至少一个音频片段的时长小于或者等于所述第二时长阈值且大于所述第四时长阈值的情况下,确定所述至少一个音频片段为所述目标静音片段,所述第二时长阈值大于所述第四时长阈值。
[0012]可选地,所述方法还包括:第五确定步骤,在历史角色不为空的情况下,确定历史角色与当前角色是否相同,其中,所述当前角色为当前的所述至少一个音频片段对应的角色,所述历史角色为所述至少一个音频片段之前的音频片段对应的角色;第六确定步骤,在
所述历史角色与所述当前角色相同的情况下,确定未发生角色切换;第七确定步骤,在所述历史角色与所述当前角色不相同的情况下,确定所述至少一个音频片段的时长是否大于或者等于第二时长阈值,在所述至少一个音频片段的时长大于或者等于所述第二时长阈值的情况下,确定发生所述角色切换;在所述至少一个音频片段的时长小于所述第二时长阈值的情况下,获取所述至少一个音频片段的后续音频片段,得到第三更新音频片段,依次重复执行所述第五确定步骤至所述第七确定步骤至少一次,直到确定发生所述角色切换或者未发生所述角色切换为止,重复执行的过程中,所述当前角色为所述第三更新音频片段对应的角色。
[0013]根据本专利技术实施例的另一方面,提供了一种音频处理装置,所述处理装置包括:第一获取单元,用于获取至少一个音频片段,并采用声纹识别模型对所述至少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取至少一个音频片段,并采用声纹识别模型对所述至少一个音频片段进行声纹识别,得到第一识别结果;在所述第一识别结果表征所述至少一个音频片段为非目标静音片段且所述至少一个音频片段的时长大于或等于第一时长阈值的情况下,获取所述第一识别结果中的最高识别分数;在所述至少一个音频片段的音频时长大于或者等于第二时长阈值且所述最高识别分数小于分数阈值的情况下,确定所述至少一个音频片段对应的角色为未知角色,所述第二时长阈值大于所述第一时长阈值;将所述未知角色注册至所述声纹识别的模型库中。2.根据权利要求1所述的方法,其特征在于,在所述至少一个音频片段的音频时长大于或者等于第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为未知角色,包括:第一确定步骤,在所述至少一个音频片段的音频时长小于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为候选未知角色;第二确定步骤,获取所述至少一个音频片段的后续音频片段,得到第一更新音频片段,并对所述第一更新音频片段进行所述声纹识别,得到第二识别结果,在所述第二识别结果表征所述第一更新音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数大于所述分数阈值的情况下,将所述候选未知角色更新为已知角色,在所述第二识别结果表征所述第一更新音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于等于所述分数阈值的情况下,将所述候选未知角色更新为所述未知角色;在所述第二识别结果表征所述第一更新音频片段的音频时长小于所述第二时长阈值情况下,重复执行所述第二确定步骤,直到确定所述第一更新音频片段对应的角色为所述已知角色或者所述未知角色为止。3.根据权利要求2所述的方法,其特征在于,在所述至少一个音频片段的音频时长小于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为候选未知角色,包括:在所述至少一个音频片段的音频时长小于第一时长阈值且所述最高识别分数小于第一分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述候选未知角色;在所述至少一个音频片段的音频时长大于或者等于所述第一时长阈值且小于第三时长阈值以及所述最高识别分数大于或者等于所述第一分数阈值且小于第二分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述候选未知角色,所述第一时长阈值小于所述第三时长阈值,所述第一分数阈值小于所述第二分数阈值;在所述至少一个音频片段的音频时长大于或者等于所述第三时长阈值且小于第二时长阈值以及所述最高识别分数大于或等于所述第二分数阈值且小于第三分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述候选未知角色,所述第三时长阈值小于所述第二时长阈值,所述第二分数阈值小于所述第三分数阈值。4.根据权利要求1所述的方法,其特征在于,在所述至少一个音频片段的音频时长大于
或者等于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为未知角色,包括:在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为所述未知角色;在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数大于或者等于所述分数阈值的情况下,确定所述至少一个音频片段对应的角色为已知角色。5.根据权利要求1所述的方法,其特征在于,获取至少一个音频片段,并采用声纹...

【专利技术属性】
技术研发人员:李志杰李健陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1