进行音频断句的自动拆分方法及系统技术方案

技术编号：14058478 阅读：58 留言：0更新日期：2016-11-27 11:28

进行音频断句的自动拆分方法及系统，包括：根据音频获取多个分帧段；根据各分帧段的能量值获取能量阈值，根据所述能量阈值，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句，之后对每个独立句进行谱熵分析，获取最后的分析句子。从而解决了现有字幕对应过程中，无法进行自动断句的问题。从而，本发明专利技术既可以处理已经录制好的音视频，也可以处理正在直播的音视频。对于网络直播流，能够自动的将网络直播语音切割，方便后续环节如听写环节并行处理，加快处理时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音、字幕处理
，尤其涉及进行音频断句的自动拆分方法及系统。
技术介绍
目前字幕制作领域，主要通过人工进行语音断句，人工语音断句的前提是将语音全部听一遍，在听写的同时通过拍打快捷键来标注一句话的开始点和结束点。由于拍打的延时，所得到的开始点和结束点存在错位，需要手动调整。整个流程需要消耗大量时间。比如，30分钟的音频需要耗时40分钟至1小时的断句时间，生产力极其低下。而在网络直播领域，如果不进行断句，由人工进行听写，很难进行并行化，而人听写的速度会比直播速度慢，无法进行并行化就不能进行实时图文直播。依靠人工断句，由于人工断句的速度也比播放速度慢，也导致难以进行实时直播。
技术实现思路
针对上述现有技术中的缺陷，本专利技术的目的是提供音频断句的自动拆分方法及系统。从而解决了现有字幕对应过程中，无法进行自动断句的问题。本专利技术针对课堂录播和网络直播，提出一种智能语音断句的方法，这种方法通过语音分析技术，能够自动快速的分析录制或采集的音频数据，检测得到符合字幕规范的语音片段，节约视音频字幕制作的时间。为了达到上述目的，本专利技术提供如下技术方案：进行音频断句的自动拆分方法，包括：步骤S101，根据音频获取多个分帧段；步骤S102，根据各分帧段的能量值获取能量阈值Ek；步骤S103，根据所述能量阈值Ek，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；步骤S104，从每个句子的前后两帧分...
进行音频断句的自动拆分方法及系统

【技术保护点】
进行音频断句的自动拆分方法，包括：步骤S101，根据音频获取多个分帧段；步骤S102，根据各分帧段的能量值获取能量阈值Ek；步骤S103，根据所述能量阈值Ek，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；步骤S104，从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于Et，且不属于其他句子，则对该帧进行傅立叶变换，取0‑4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为Vi,i＝1,2,…z。总强度为Vsum，Pi为每条谱带的概率：Pi的计算公式为：Pi=ViVsum]]>则，该帧的谱熵为：H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比，记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt，则将该帧归到句子中，如果扫描到语音流的开始或结束，扫描中止。

【技术特征摘要】
1.进行音频断句的自动拆分方法，包括：步骤S101，根据音频获取多个分帧段；步骤S102，根据各分帧段的能量值获取能量阈值Ek；步骤S103，根据所述能量阈值Ek，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；步骤S104，从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于Et，且不属于其他句子，则对该帧进行傅立叶变换，取0-4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为Vi,i＝1,2,…z。总强度为Vsum，Pi为每条谱带的概率：Pi的计算公式为： P i = V i V s u m ]]>则，该帧的谱熵为： H = - Σ i = 1 z P i logP i ]]>每一帧的能量与谱熵的比值为能熵比，记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt，则将该帧归到句子中，如果扫描到语音流的开始或结束，扫描中止。2.根据权利要求1所述的进行音频断句的自动拆分方法，其特征在于，所述步骤S101中包括：步骤S1011：接收音频文件；步骤S1012：根据设定的分割时间对所述音频文件进行分割，获取多个分帧段。3.根据权利要求1或2所述的进行音频断句的自动拆分方法，其特征在于，所述步骤S102中包括：根据各分帧段的能量值的平均值获取能量阈值Ek。4.根据权利要求1所述的进行音频断句的自动拆分方法，其特征在于，所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括：若前序帧或后序帧的能量阀值小于设定能量Et，则判断当前帧与下一帧的间隔时间是否小于设定间隔时间，若是，则将所述句中间帧按帧起始顺序合并成为独立句。5.根据权利要求1或4所述的进行音频断句的自动拆分方法，其特征在于，步骤S103后还包括：步骤S1031：若所述独立句的帧长超出设定独立帧长，则计算该独立局每帧的谱熵比，以最低谱熵比所对应的帧作为分割点，将上述独立局风格为两...

【专利技术属性】
技术研发人员：胡飞，
申请(专利权)人：北京华科飞扬科技股份公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人