进行音频断句的自动拆分方法及系统技术方案

技术编号:14058478 阅读:58 留言:0更新日期:2016-11-27 11:28
进行音频断句的自动拆分方法及系统,包括:根据音频获取多个分帧段;根据各分帧段的能量值获取能量阈值,根据所述能量阈值,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句,之后对每个独立句进行谱熵分析,获取最后的分析句子。从而解决了现有字幕对应过程中,无法进行自动断句的问题。从而,本发明专利技术既可以处理已经录制好的音视频,也可以处理正在直播的音视频。对于网络直播流,能够自动的将网络直播语音切割,方便后续环节如听写环节并行处理,加快处理时间。

【技术实现步骤摘要】

本专利技术涉及语音、字幕处理
,尤其涉及进行音频断句的自动拆分方法及系统
技术介绍
目前字幕制作领域,主要通过人工进行语音断句,人工语音断句的前提是将语音全部听一遍,在听写的同时通过拍打快捷键来标注一句话的开始点和结束点。由于拍打的延时,所得到的开始点和结束点存在错位,需要手动调整。整个流程需要消耗大量时间。比如,30分钟的音频需要耗时40分钟至1小时的断句时间,生产力极其低下。而在网络直播领域,如果不进行断句,由人工进行听写,很难进行并行化,而人听写的速度会比直播速度慢,无法进行并行化就不能进行实时图文直播。依靠人工断句,由于人工断句的速度也比播放速度慢,也导致难以进行实时直播。
技术实现思路
针对上述现有技术中的缺陷,本专利技术的目的是提供音频断句的自动拆分方法及系统。从而解决了现有字幕对应过程中,无法进行自动断句的问题。本专利技术针对课堂录播和网络直播,提出一种智能语音断句的方法,这种方法通过语音分析技术,能够自动快速的分析录制或采集的音频数据,检测得到符合字幕规范的语音片段,节约视音频字幕制作的时间。为了达到上述目的,本专利技术提供如下技术方案:进行音频断句的自动拆分方法,包括:步骤S101,根据音频获取多个分帧段;步骤S102,根据各分帧段的能量值获取能量阈值Ek;步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率。Pi的计算公式为: P i = V i V s u m ]]>则,该帧的谱熵为: H = - Σ i = 1 z P i logP i ]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中。如果扫描到语音流的开始或结束,扫描中止。在一种优选的实施方式中,所述步骤S101中包括:步骤S1011:接收音频文件;步骤S1012:根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。在一种优选的实施方式中,所述步骤S102中包括:根据各分帧段的能量值的平均值获取能量阈值Ek。在一种优选的实施方式中,所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括:若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句;所述谱熵分析单元,配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率。Pi的计算公式为: P i = V i V s u m ]]>则,该帧的谱熵为: H = - Σ i = 1 z P i logP i ]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中。如果扫描到语音流的开始或结束,扫描中止。在一种优选的实施方式中,步骤S103后还包括:步骤S1031:若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。同时本专利技术还提供了一种进行音频断句的自动拆分系统,包括:分帧单元、能量阀值获取单元、独立句获取单元及所述谱熵分析单元。所述分帧单元,配置为根据音频获取多个分帧段;所述能量阀值获取单元,配置为根据各分帧段的能量值获取能量阈值Ek;所述独立句获取单元,配置为根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;所述谱熵分析单元,配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率。Pi的计算公式为: P i = V i V s u m ]]>则,该帧的谱熵为: H = - Σ i = 1 z P i logP i ]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中。如果扫描到语音流的开始或结束,扫描中止。在一种优选的实施方式中,所述分帧单元还配置为:接收音频文件;根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。在一种优选的实施方式中,所述能量阀值获取单元还配置为,根据各分帧段的能量值的平均值获取能量阈值Ek。在一种优选的实施方式中,所述独立句获取单元还配置为,若前序帧或后序帧的能量阀值小于设定本文档来自技高网...
进行音频断句的自动拆分方法及系统

【技术保护点】
进行音频断句的自动拆分方法,包括:步骤S101,根据音频获取多个分帧段;步骤S102,根据各分帧段的能量值获取能量阈值Ek;步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0‑4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率:Pi的计算公式为:Pi=ViVsum]]>则,该帧的谱熵为:H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止。

【技术特征摘要】
1.进行音频断句的自动拆分方法,包括:步骤S101,根据音频获取多个分帧段;步骤S102,根据各分帧段的能量值获取能量阈值Ek;步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率:Pi的计算公式为: P i = V i V s u m ]]>则,该帧的谱熵为: H = - Σ i = 1 z P i logP i ]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止。2.根据权利要求1所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S101中包括:步骤S1011:接收音频文件;步骤S1012:根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。3.根据权利要求1或2所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S102中包括:根据各分帧段的能量值的平均值获取能量阈值Ek。4.根据权利要求1所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括:若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。5.根据权利要求1或4所述的进行音频断句的自动拆分方法,其特征在于,步骤S103后还包括:步骤S1031:若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两...

【专利技术属性】
技术研发人员:胡飞
申请(专利权)人:北京华科飞扬科技股份公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1