音频处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号：38766344 阅读：35 留言：0更新日期：2023-09-10 10:39

本申请实施例公开了一种音频处理方法、装置、存储介质及电子设备。该方法包括：获取初始音频数据，并转换初始音频数据的采样率，判断初始音频数据是否包含关联的字幕文件，若不包含，则对转换采样率后的音频数据进行人声提取处理，将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，以得到包含起止时间戳的多个子音频，获取多个子音频分别对应的字幕文件。本申请实施例可以剔除音频当中的非人声部分，只将人声音频进行切分并获取对应的字幕文件，使得最终得到的字幕文件准确性更高。高。高。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、存储介质及电子设备

[0001]本申请涉及音频数据处理
，具体涉及一种音频处理方法、装置、存储介质及电子设备。

技术介绍

[0002]近年来，随着智能音箱和语音助手等的普及，语音识别越来越被大家所接受，这项技术被应用的场景也越来越多，例如：通过语音来控制设备、实现内容搜索成为大家日常生活中很重要的一部分。但目前训练一个能够商用的语音识别系统是比较困难的，因为训练这样的语音识别系统需要大量的标注语料（上万小时），而获取这些语料成本过于昂贵。
[0003]目前常用的获取训练语料的，一种方法是，数据公司招募并组织用户采集数据，采集后的数据需要进行清洗和标注，但这样的流程执行起来有诸多限制，一是需要投入大量的资金；二是由于需要人工参与，采集流程很长，不能保证时效性。另一种方法是，从互联网上可以低成本获取海量语料，但是这样的语料质量无法保证，例如：存在大量非人声噪音，字幕和音频不能完全对应等问题。

技术实现思路

[0004]本申请实施例提供一种音频处理方法、装置、存储介质及电子设备，可以剔除音频当中的非人声部分，只将人声音频进行切分并获取对应的字幕文件，使得最终得到的字幕文件准确性更高。
[0005]本申请实施例提供了一种音频处理方法，包括：获取初始音频数据，并转换所述初始音频数据的采样率；判断所述初始音频数据是否包含关联的字幕文件；若不包含，则对转换采样率后的音频数据进行人声提取处理；将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，以得到包含起止时间戳...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：获取初始音频数据，并转换所述初始音频数据的采样率；判断所述初始音频数据是否包含关联的字幕文件；若不包含，则对转换采样率后的音频数据进行人声提取处理；将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，以得到包含起止时间戳的多个子音频；获取所述多个子音频分别对应的字幕文件。2.如权利要求1所述的音频处理方法，其特征在于，所述获取初始音频数据，并转换所述初始音频数据的采样率，包括：获取当前网页的源码，并通过正则表达式方法获取所述源码中目标音频的URL信息；通过所述URL信息下载所述目标音频，以得到初始音频数据；根据预设采样率对所述初始音频数据的采样率进行转换。3.如权利要求1所述的音频处理方法，其特征在于，所述方法还包括：若所述初始音频数据包含关联的字幕文件，则将所述初始音频数据和关联的字幕文件输入到预构建的字级对齐模型中进行运算；输出与所述初始语音数据对应的字级对齐结果。4.如权利要求1所述的音频处理方法，其特征在于，所述静音时长阈值包括依次递减的多个阈值，所述将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，包括：根据第一静音时长阈值在所述人声音频中选择第一切分点，并基于所述第一切分点对所述人声音频进行首次切分，以得到多个音频段；在所述多个音频段中，针对音频时长大于所述预设音频时长区间的音频段基于第二静音时长阈值再次进行切分；根据剩余的静音时长阈值依次进行切分，直到根据最小的静音时长阈值切分后，得到多个子音频。5.如权利要求4所述的音频处理方法，其特征在于，所述方法还包括：在所述多个子音频中分别判断每个子音频的音频时长是否小于所述预...

【专利技术属性】
技术研发人员：刘艳鑫，
申请(专利权)人：北京探境科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人