一种基于语音识别的视频中音频流替换方法技术

技术编号：29465125 阅读：48 留言：0更新日期：2021-07-27 17:53

本发明专利技术公开了一种基于语音识别的视频中音频流替换方法。所述方法为：首先通过对音频进行端点检测得到音频中人说的前后端点，然后对音频进行降噪提取特征值，再通过声音模型和语言模型进行语音识别，然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成，实现视频中的音频流替换过程。本发明专利技术能够得到语音识别结果中每个字在音频中的起始时间与结束时间，得到识别结果中每个字在音频中的起始时间与结束时间，通过计算使得视频中音频流替换更加科学准确，可以在语音识别效果检测和视频制作领域起到巨大作用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音识别的视频中音频流替换方法
本专利技术属于语音识别
，涉及一种基于语音识别的视频中音频流替换方法，具体是通过音频分析计算每字起止时间，以实现当视频中音频流部分改变时可以使得新生成音频无缝替换原视频中对应音频的方法。
技术介绍
近年来，随着自然语言处理技术的发展，智能语音识别和语音合成技术逐渐投入到生产生活中。但是语音识别技术的发展多见于不同语种的识别，不同的识别方式，通过各种方法来达到更好的识别效果与更快的识别速度以及更广的识别范围。对于一个含有对话、演讲等内容的视频而言，要想在不改变视频流的基础上，用几乎无痕的方式修改其中的音频，是非常困难的，其中的最大的一个难点就在于如何将合成的音频流恰好地重新嵌入回视频中。为解决音频流替换的问题，学术界、工业界提出了很多方案，其中与本专利技术较为接近的技术方案有：专利公开号为CN110019961A的专利技术专利中，通过语音识别、获取音频流的语音特征和语音合成的方法来修改视频流中的音频流，但是该专利中，没有对合成的音频再进行修改，可能会导致视频的剪辑痕迹重，在单个字上音画不同步等问题。本方法就能够通过精准识别单个字音频的起止时间，再修改合成的音频流，达成音频流的无痕修改。
技术实现思路
针对现有技术中存在的上述问题，本专利技术的目的在于提供一种基于语音识别的视频中音频流替换方法，该方法为在语音识别时得到单个字在音频中的起始时间与结束时间，依托此技术通过判断修改前后音频流中不同，选择执行不同操作以实现当视频中音频流部分改变时将...

【技术保护点】
1.一种基于语音识别的视频中音频流替换方法，包括如下步骤：/n步骤1：提取待处理的视频中的音频，并对所提取的音频进行端点检测、降噪，具体为：/n步骤1.1：首先将音频按照时长与采样率进行分帧，根据式(1)计算每一帧的时长，最后将每一帧乘上汉明窗；/n

【技术特征摘要】
1.一种基于语音识别的视频中音频流替换方法，包括如下步骤：
步骤1：提取待处理的视频中的音频，并对所提取的音频进行端点检测、降噪，具体为：
步骤1.1：首先将音频按照时长与采样率进行分帧，根据式(1)计算每一帧的时长，最后将每一帧乘上汉明窗；

其中，T表示音频帧时长，n表示一个AAC帧对应的采样点个数，v表示采样频率；
步骤1.2：根据式(2)计算每一帧的能量值，

其中，En表示第n帧的能量，xni表示第n帧第i个采样点的频率，N表示每帧采样点的总数；
步骤1.3：根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea，若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea，则将该帧的起始时刻作为前端点，反之将该帧的结束时刻作为后端点，一对前后端点间的时间就代表人停顿间说话的时间；
步骤1.4：取音频起始处50帧的语音作为背景音，将所取的50帧的语音以每组10帧分为5组，对每组的语音帧进行傅里叶变换，求得每组的频谱，并求5组的频谱平均值，得到10帧长度的频谱作为噪声频谱；对整个音频的全部语音进行傅里叶变换求出频谱，使用噪声频谱进行补偿，即两者相减，再使用傅里叶逆变换得到正常的降噪后的音频；
步骤2：对音频进行特征值提取，具体为：对步骤1)降噪后的音频进行MFCC语音特征提取，通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取，得到每一帧音频的特征值C；
步骤3：通过声音模型和语言模型识别音频中的语音，具体为：根据式(3)求出语音对应概率最高的文本段，记录对应于每个字发音的特征值Ci；
S*＝argmaxP(S|C)(3)
其中，C表示输入的音频的特征值，S表示输入的语音特征C对应的概率，S*表示计算得到的最高的文本段概率；
步骤4：根据特征值得出每个字的起止时间，具体为：根据每个字发音的特征值Ci，与步骤2中得到的每一帧音频的特征值C按序进行对比，按序找到每个Ci所在位置，得到每个字所占的帧的位置，再根据式(4)和(5)计算第i个字的起始时间和结束时间；<...

【专利技术属性】
技术研发人员：徐浩然，沈童，潘晨高，张鑫晟，王英钒，高飞，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人