【技术实现步骤摘要】
一种语音文件裁剪还原方法、装置、设备和存储介质
本专利技术属于语音处理领域,特别涉及一种语音文件裁剪还原方法、装置、设备和存储介质。
技术介绍
在语音分析中,为了防止将语音用作其他用途,需要对语音文件进行裁剪,在语音分析时,分析系统要求语音片段都为一段完整的语音,如果采用传统的语音裁剪方法,无法保证裁剪后语音片段词义的完整性,出现断词的现象,导致无法对于音片段无法做正常的语音分析工作,如关键词提取、语音转写等。
技术实现思路
针对上述问题,本专利技术提出一种语音文件裁剪还原方法,设置最大静默时间和设置最小静默值;获取原始语音文件;获取原始语音文件中音频能量值小于等于最小静默值的无效语音片段;判断无效语音片段时长是否大于最大静默时间;对时长大于最大静默时间的无效语音片段的起点和终点进行裁剪;剔除裁剪得到无效语音片段,获得多段有效语音片段;顺序拼接多段有效语音片段,获得还原语音文件。优选地,所述设置最小静默值具体包括:采集原始语音文件初始静音段的平均能量 ...
【技术保护点】
1.一种语音文件裁剪还原方法,其特征在于,/n设置最大静默时间和设置最小静默值;/n获取原始语音文件;/n获取原始语音文件中音频能量值小于等于最小静默值的无效语音片段;/n判断无效语音片段时长是否大于最大静默时间;/n对时长大于最大静默时间的无效语音片段的起点和终点进行裁剪;/n剔除裁剪得到无效语音片段,获得多段有效语音片段;/n顺序拼接多段有效语音片段,获得还原语音文件。/n
【技术特征摘要】
1.一种语音文件裁剪还原方法,其特征在于,
设置最大静默时间和设置最小静默值;
获取原始语音文件;
获取原始语音文件中音频能量值小于等于最小静默值的无效语音片段;
判断无效语音片段时长是否大于最大静默时间;
对时长大于最大静默时间的无效语音片段的起点和终点进行裁剪;
剔除裁剪得到无效语音片段,获得多段有效语音片段;
顺序拼接多段有效语音片段,获得还原语音文件。
2.根据权利要求1所述的还原方法,其特征在于,所述设置最小静默值具体包括:
采集原始语音文件初始静音段的平均能量值;
设置最小静默值等于平均能量值。
3.根据权利要求1所述的还原方法,其特征在于,所述设置最小静默值具体包括:
采集原始语音文件初始静音段的平均能量值;
所述平均能量值乘以预设系数得到经验能量值;
设置最小静默值等于经验能量值。
4.根据权利要求1-3中任一项所述的还原方法,其特征在于,所述获取原始语音文件中音频能量值低于最小静默值的无效语音片段包括:
在原始语音文件上等时间间隔设置采样点,在采样点采集音频能量值;
连续至少P个音频能量值大于最小静默值,并且连续至少Q个音频能量值小于等于最小静默值,P个采样点与Q个采样点之间无采样点,P个采样点与Q个采样点之间为无效语音片段的起点;
连续至少M个音频能量值小于等于最小静默值,并且连续至少N个音频能量值大于最小静默值,M个采样点与N个采样点之间无采样点,M个采样点与N个采样点之间为无效语音片段的终点。
5.根据权利要求4所述的还原方法,其特征在于,P=Q=M=N。
6.根据权利要求1-3中任一项所述的还原方法,其特征在于,所述获取原始语音文件中音频能量值低于最小静默值的无效语音片段包括:
将原始语音文件等时间间隔分割形成多段分割单元,每个分割单元设置多个采样点,在采样点采集音频能量值;
连续至少A个分割单元内的平均音频能量值大于最小静默值,并且连续至少B个分割单元内的平均音频能量值小于等于最小静默值,A个分割单元与B个分割单元之间无分割单元,A个分割单元与B个分割单元之间为无效语音片段的起点;
连续至少C个分割单元内的平均音频能量值小于等于最小静默值,并且连续至少D个分割单元内的平均音频能量值大于最小...
【专利技术属性】
技术研发人员:王佩,李扬曦,刘志会,史建文,温志斌,郝振江,
申请(专利权)人:国家计算机网络与信息安全管理中心,天津市国瑞数码安全系统股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。