语音处理方法、处理装置、电子设备及存储介质制造方法及图纸

技术编号:36181363 阅读:15 留言:0更新日期:2022-12-31 20:38
本申请公开了一种语音处理方法、处理装置、电子设备及存储介质,语音处理方法包括获取比对语音对应的第一音段和目标语音对应的第二音段;生成第一音段对应的第一语谱图;生成第二音段对应的第二语谱图;根据第一语谱图以及第二语谱图进行对齐,生成目标语谱图,目标语谱图包括第一语谱图和第二语谱图对应的对齐语谱图,对齐语谱图的时间位置与第一语谱图的时间位置对齐。本方法实现了自动根据比对语音对应的第一音段和目标语音对应的第二音段,生成包括第一音段对应的第一语谱图和第二音段对应的对齐语谱图的目标语谱图,无需人工将第一音段对应的第一语谱图和第二音段对应的第二语谱图进行对齐,提高了语音同一性鉴定的鉴定效率。的鉴定效率。的鉴定效率。

【技术实现步骤摘要】
语音处理方法、处理装置、电子设备及存储介质


[0001]本申请涉及音频处理
,更具体地,涉及一种语音处理方法、处理装置、电子设备及存储介质。

技术介绍

[0002]声纹鉴定(Voice Identification)作为生物识别技术的一种,又称为语音同一性鉴定。在鉴定过程中,当需要对不同的语音数据进行比对时,例如需要确认不同的语音数据是否为同一说话者时,可以通过比较不同的语音数据对应的语谱图的相似度。
[0003]目前,在对不同的语音数据对应的语谱图的相似度进行比较时,需要人工将不同的语音数据对应的语谱图进行对齐,其中的操作过程较为繁琐,导致语音同一性鉴定的鉴定效率较低。

技术实现思路

[0004]鉴于上述问题,本申请提出了一种语音处理方法、处理装置、电子设备及存储介质,以克服或者至少部分地解决以上现有技术的问题。
[0005]第一方面,本申请实施例提供了一种语音处理方法,包括:获取比对语音对应的第一音段和目标语音对应的第二音段;生成第一音段对应的第一语谱图;生成第二音段对应的第二语谱图;根据第一语谱图以及第二语谱图进行对齐,生成目标语谱图,目标语谱图包括第一语谱图和第二语谱图对应的对齐语谱图,对齐语谱图的时间位置与第一语谱图的时间位置对齐。
[0006]第二方面,本申请实施例提供了一种语音处理装置,包括:获取模块,用于获取比对语音对应的第一音段和目标语音对应的第二音段;第一生成模块,用于生成第一音段对应的第一语谱图;第二生成模块,用于生成第二音段对应的第二语谱图;第三生成模块,用于根据第一语谱图以及第二语谱图进行对齐,生成目标语谱图,目标语谱图包括第一语谱图和第二语谱图对应的对齐语谱图,对齐语谱图的边界与第一语谱图的边界对齐。
[0007]第三方面,本申请实施例提供了一种电子设备,包括存储器;一个或多个处理器,与存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如上述第一方面提供的语音处理方法。
[0008]第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行如上述第一方面提供的语音处理方法。
[0009]本申请提供的方案,通过获取比对语音对应的第一音段和目标语音对应的第二音段,并生成第一音段对应的第一语谱图,生成第二音段对应的第二语谱图,以及根据第一语谱图以及第二语谱图进行对齐,生成目标语谱图,目标语谱图包括第一语谱图和第二语谱图对应的对齐语谱图,对齐语谱图的时间位置与第一语谱图的时间位置对齐,实现了自动
根据比对语音对应的第一音段和目标语音对应的第二音段,生成包括第一音段对应的第一语谱图和第二音段对应的对齐语谱图的目标语谱图,无需人工将第一音段对应的第一语谱图和第二音段对应的第二语谱图进行对齐,提高了语音同一性鉴定的鉴定效率。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1示出了本申请实施例提供的语音处理方法的一种流程示意图。
[0012]图2示出了本申请实施例提供的语音处理方法的另一种流程示意图。
[0013]图3示出了本申请实施例提供的语音处理方法的再一种流程示意图。
[0014]图4示出了本申请实施例提供的语音处理装置的一种结构框图。
[0015]图5示出了本申请实施例提供的电子设备的一种功能框图。
[0016]图6示出了本申请实施例提供的用于保存或者携带现实根据本申请实施例提供的语音处理方法的程序代码的计算机可读存储介质。
具体实施方式
[0017]下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
[0018]下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
[0019]声纹鉴定(Voice Identification)作为生物识别技术的一种,又称为语音同一性鉴定。在鉴定过程中,当需要对不同的语音数据进行比对时,例如需要确认不同的语音数据是否为同一说话者时,可以通过比较不同的语音数据对应的语谱图的相似度。
[0020]目前,在对不同的语音数据对应的语谱图的相似度进行比较时,需要人工将不同的语音数据对应的语谱图进行对齐,其中的操作过程较为繁琐,导致语音同一性鉴定的鉴定效率较低。
[0021]针对上述问题,专利技术人经过长时间的研究并提出了本申请实施例提供的语音处理方法、处理装置、电子设备及存储介质,实现了自动根据比对语音对应的第一音段和目标语音对应的第二音段,生成包括第一音段对应的第一语谱图和第二音段对应的对齐语谱图的目标语谱图,无需人工将第一音段对应的第一语谱图和第二音段对应的第二语谱图进行对齐,提高了语音同一性鉴定的鉴定效率。
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0023]请参阅图1,其示出了本申请一个实施例提供的语音处理方法的流程图。在具体的实施例中,语音处理方法可以由具备处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑等终端设备,语音处理方法还可以由包括服务器和终端的处理系统来交互执行。如图1所示,语音处理方法可以包括步骤S110至步骤S140。
[0024]步骤S110:获取比对语音对应的第一音段和目标语音对应的第二音段。
[0025]在本申请实施例中,对于需要进行语音同一性鉴定的两个语音数据,身份信息待定的语音数据为比对语音,身份信息已经明确的语音数据为目标语音。
[0026]通过对比对语音进行自动语音识别(Automatic Speech Recognition,ASR),获得对应的第一音段,以及对目标语音进行ASR,获得对应的第二音段。
[0027]其中,第一音段可以包括具有特定音素(例如,汉语的声母、韵母,或者英语的辅音、元音等)在比对语音中的起止时间信息的语音片段,或者音节(例如,汉语的单字,或者英语的单音节等)在比对语音中的起止时间信息的语音片段。
[0028]第二音段可以包括具有特定音素(例如,汉语的声母、韵母,或者英语的辅音、元音等)在目标语音中的起止时间信息的语音片段,或者音节(例如,汉语的单字,或者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取比对语音对应的第一音段和目标语音对应的第二音段;生成所述第一音段对应的第一语谱图;生成所述第二音段对应的第二语谱图;根据所述第一语谱图以及所述第二语谱图进行对齐,生成目标语谱图,所述目标语谱图包括所述第一语谱图和所述第二语谱图对应的对齐语谱图,所述对齐语谱图的时间位置与所述第一语谱图的时间位置对齐。2.根据权利要求1所述的语音处理方法,其特征在于,所述生成所述第二音段对应的第二语谱图之前,还包括:确定是否调整所述第二音段的音段数据对应的时间信息,所述音段数据包括音素数据和音节数据;当确定调整所述第二音段的音段数据对应的时间信息时,对所述第二音段的音段数据对应的时间信息进行调整,获得调整音段,所述调整音段的音段数据对应的时间信息与预设时间信息匹配;所述生成所述第二音段对应的第二语谱图,包括:生成所述调整音段对应的语谱图,并作为所述第二音段对应的第二语谱图。3.根据权利要求2所述的语音处理方法,其特征在于,所述确定是否调整所述第二音段的音段数据对应的时间信息,包括:将所述第二音段的音段数据对应的时间信息与预设时间信息进行匹配,获得时间匹配度;根据所述时间匹配度,确定是否调整所述第二音段的音段数据对应的时间信息;当所述时间匹配度大于或者等于时间匹配度阈值时,则确定调整所述第二音段的音段数据对应的时间信息;当所述时间匹配度小于时间匹配度阈值时,则确定不调整所述第二音段的音段数据对应的时间信息。4.根据权利要求2所述的语音处理方法,其特征在于,所述当确定调整所述第二音段的音段数据对应的时间信息时,对所述第二音段的音段数据对应的时间信息进行调整,获得调整音段,包括:当确定调整所述第二音段的音段数据对应的时间信息时,将所述第二音段输入预先训练的深度学习网络模型,所述深度学习网络模型用于将所述第二音段调整为音段数据对应的时间信息与预设时间信息匹配的调整音段;接收所述深度学习网络模型输出的所述调整音段。5.根据权利要求1所述的语音处理方法,其特征在于,所述根据所述第一语谱图以及所述第二语谱图进行对齐,生成目标语...

【专利技术属性】
技术研发人员:丁俊豪陈东鹏
申请(专利权)人:深圳市声扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1