音频处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:38766344 阅读:35 留言:0更新日期:2023-09-10 10:39
本申请实施例公开了一种音频处理方法、装置、存储介质及电子设备。该方法包括:获取初始音频数据,并转换初始音频数据的采样率,判断初始音频数据是否包含关联的字幕文件,若不包含,则对转换采样率后的音频数据进行人声提取处理,将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分,以得到包含起止时间戳的多个子音频,获取多个子音频分别对应的字幕文件。本申请实施例可以剔除音频当中的非人声部分,只将人声音频进行切分并获取对应的字幕文件,使得最终得到的字幕文件准确性更高。高。高。

【技术实现步骤摘要】
音频处理方法、装置、存储介质及电子设备


[0001]本申请涉及音频数据处理
,具体涉及一种音频处理方法、装置、存储介质及电子设备。

技术介绍

[0002]近年来,随着智能音箱和语音助手等的普及,语音识别越来越被大家所接受,这项技术被应用的场景也越来越多,例如:通过语音来控制设备、实现内容搜索成为大家日常生活中很重要的一部分。但目前训练一个能够商用的语音识别系统是比较困难的,因为训练这样的语音识别系统需要大量的标注语料(上万小时),而获取这些语料成本过于昂贵。
[0003]目前常用的获取训练语料的,一种方法是,数据公司招募并组织用户采集数据,采集后的数据需要进行清洗和标注,但这样的流程执行起来有诸多限制,一是需要投入大量的资金;二是由于需要人工参与,采集流程很长,不能保证时效性。另一种方法是,从互联网上可以低成本获取海量语料,但是这样的语料质量无法保证,例如:存在大量非人声噪音,字幕和音频不能完全对应等问题。

技术实现思路

[0004]本申请实施例提供一种音频处理方法、装置、存储介质及电子设备,可以剔除音频当中的非人声部分,只将人声音频进行切分并获取对应的字幕文件,使得最终得到的字幕文件准确性更高。
[0005]本申请实施例提供了一种音频处理方法,包括:获取初始音频数据,并转换所述初始音频数据的采样率;判断所述初始音频数据是否包含关联的字幕文件;若不包含,则对转换采样率后的音频数据进行人声提取处理;将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分,以得到包含起止时间戳的多个子音频;获取所述多个子音频分别对应的字幕文件。
[0006]在一实施例中,所述获取初始音频数据,并转换所述初始音频数据的采样率,包括:获取当前网页的源码,并通过正则表达式方法获取所述源码中目标音频的URL信息;通过所述URL信息下载所述目标音频,以得到初始音频数据;根据预设采样率对所述初始音频数据的采样率进行转换。
[0007]在一实施例中,所述方法还包括:若所述初始音频数据包含关联的字幕文件,则将所述初始音频数据和关联的字幕文件输入到预构建的字级对齐模型中进行运算;输出与所述初始语音数据对应的字级对齐结果。
[0008]在一实施例中,所述静音时长阈值包括依次递减的多个阈值,所述将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分,包括:根据第一静音时长阈值在所述人声音频中选择第一切分点,并基于所述第一切分点对所述人声音频进行首次切分,以得到多个音频段;在所述多个音频段中,针对音频时长大于所述预设音频时长区间的音频段基于第二静音时长阈值再次进行切分;根据剩余的静音时长阈值依次进行切分,直到根据最小的静音时长阈值切分后,得到多个子音频。
[0009]在一实施例中,所述方法还包括:在所述多个子音频中分别判断每个子音频的音频时长是否小于所述预设音频时长区间;若小于,则根据所述预设音频时长区间在前后关联的子音频中确定目标子音频,并将当前子音频与所述目标子音频进行合并。
[0010]在一实施例中,所述获取所述多个子音频分别对应的字幕文件,包括:确定所述多个子音频对应的语种信息;根据所述语种信息对所述多个子音频分别进行语音识别;根据语音识别结果分别生成所述多个子音频对应的字幕文件。
[0011]在一实施例中,所述确定所述多个子音频对应的语种信息,包括:提取所述子音频的语音特征;将所述语音特征输入至语种分类模型,输出多种语种信息各自对应的概率值;根据所述概率值确定目标语种信息。
[0012]本申请实施例还提供一种音频处理装置,包括:转换模块,用于获取初始音频数据,并转换所述初始音频数据的采样率;判断模块,用于判断所述初始音频数据是否包含关联的字幕文件;提取模块,用于当所述判断模块判断为否时,对转换采样率后的音频数据进行人声提取处理;切分模块,用于将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分,以得到包含起止时间戳的多个子音频;获取模块,用于获取所述多个子音频分别对应的字幕文件。
[0013]本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的音频处理方法中的步骤。
[0014]本申请实施例还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的音频处理方法中的步骤。
[0015]本申请实施例提供的音频处理方法、装置、存储介质及电子设备,可以获取初始音频数据,并转换初始音频数据的采样率,判断初始音频数据是否包含关联的字幕文件,若不包含,则对转换采样率后的音频数据进行人声提取处理,将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分,以得到包含起止时间戳的多个子音频,获取多个子音频分别对应的字幕文件。本申请实施例可以剔除音频当中的非人声部分,只将人声音
频进行切分并获取对应的字幕文件,使得最终得到的字幕文件准确性更高。
附图说明
[0016]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本申请实施例提供的音频处理装置的一种系统示意图。
[0018]图2为本申请实施例提供的音频处理方法的一种流程示意图。
[0019]图3为本申请实施例提供的音频处理方法的另一种流程示意图。
[0020]图4为本申请实施例提供的音频对齐的一种示意图。
[0021]图5为本申请实施例提供的音频处理装置的一种结构示意图。
[0022]图6为本申请实施例提供的音频处理装置的另一结构示意图。
[0023]图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]本申请实施例提供一种音频处理方法、装置、存储介质及电子设备。具体地,本申请实施例的音频处理方法可以由电子设备或服务器执行,其中,该电子设备可以为终端。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,PersonalComputer)、个人数字助理(Personal Digital Assistant,PDA)等终端设备,终端还可以包括客户端,该客户端可以是媒体播放客户端或即时通信客户端等。
[0026]例如,当该音频处理方法运行于电子设备时,电子设备可以获取初始音频数据,并转换初始音频数据的采样率,判断初始音频数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取初始音频数据,并转换所述初始音频数据的采样率;判断所述初始音频数据是否包含关联的字幕文件;若不包含,则对转换采样率后的音频数据进行人声提取处理;将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分,以得到包含起止时间戳的多个子音频;获取所述多个子音频分别对应的字幕文件。2.如权利要求1所述的音频处理方法,其特征在于,所述获取初始音频数据,并转换所述初始音频数据的采样率,包括:获取当前网页的源码,并通过正则表达式方法获取所述源码中目标音频的URL信息;通过所述URL信息下载所述目标音频,以得到初始音频数据;根据预设采样率对所述初始音频数据的采样率进行转换。3.如权利要求1所述的音频处理方法,其特征在于,所述方法还包括:若所述初始音频数据包含关联的字幕文件,则将所述初始音频数据和关联的字幕文件输入到预构建的字级对齐模型中进行运算;输出与所述初始语音数据对应的字级对齐结果。4.如权利要求1所述的音频处理方法,其特征在于,所述静音时长阈值包括依次递减的多个阈值,所述将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分,包括:根据第一静音时长阈值在所述人声音频中选择第一切分点,并基于所述第一切分点对所述人声音频进行首次切分,以得到多个音频段;在所述多个音频段中,针对音频时长大于所述预设音频时长区间的音频段基于第二静音时长阈值再次进行切分;根据剩余的静音时长阈值依次进行切分,直到根据最小的静音时长阈值切分后,得到多个子音频。5.如权利要求4所述的音频处理方法,其特征在于,所述方法还包括:在所述多个子音频中分别判断每个子音频的音频时长是否小于所述预...

【专利技术属性】
技术研发人员:刘艳鑫
申请(专利权)人:北京探境科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1