一种基于语音识别的视频拍摄方法技术

技术编号:35299922 阅读:18 留言:0更新日期:2022-10-22 12:48
本发明专利技术公开了一种基于语音识别的视频拍摄方法,包括以下步骤:语音唤醒步骤:设备通过语音识别系统获取语音唤醒命令,设备获取唤醒命令后进入音频和视频录制预备状态;音视频录制步骤:设备根据预定的语音分贝值进入音频、视频录制状态,语音小于预定的分贝值时,设备停止音频、录制视频;音频处理步骤:在视频录制时,通过语音识别系统获取单独的音频文件,并把音频文件数据转化成PCM格式;音视频合成步骤:将录制的视频和语音信息进行合成。本发明专利技术基于语音采集、语音识别和视频素材动态合成技术,实现了一套“说话即拍、闭嘴即停,同时根据用户说话内容自动贴纸”的新一代视频消息交互系统,便于用户与好友之间进行视频互动,增进用户关系。用户关系。用户关系。

【技术实现步骤摘要】
一种基于语音识别的视频拍摄方法


[0001]本专利技术涉及视频拍摄
,具体涉及一种基于语音识别的视频拍摄方法。

技术介绍

[0002]随着手机的普及,拍摄短视频成为人们生活中一种娱乐方式,通过发布短视频,使得好友能够进行观看,进而达到与朋友进行互动的目的。
[0003]如授权公告号为CN201510374399.4公开了一种视频录制方法及装置。本专利技术所述的一种视频录制方法包括:在第一预览界面中播放视频;实时检测所述第一预览界面是否为当前显示界面,如果是,则对所述当前显示界面中播放的视频进行录制;如果否,则开辟新线程,在所述新线程内,对所述第一预览界面中播放的视频进行录制。
[0004]上述以及在现有技术中的视频拍摄时操作步骤繁琐,导致视频进行拍摄时不方便。因此,亟需设计一种基于语音识别的视频拍摄方法来解决上述问题。

技术实现思路

[0005]本专利技术的目的是提供一种基于语音识别的视频拍摄方法,以解决现有技术中的上述不足之处。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于语音识别的视频拍摄方法,包括以下步骤:
[0008]语音唤醒步骤:设备通过语音识别系统获取语音唤醒命令,设备获取唤醒命令后进入音频和视频录制预备状态;
[0009]音视频录制步骤:设备根据预定的语音分贝值进入音频、视频录制状态,语音小于预定的分贝值时,设备停止音频、录制视频;
[0010]音频处理步骤:在视频录制时,通过语音识别系统获取单独的音频文件,并把音频文件数据转化成PCM格式;
[0011]音视频合成步骤:将录制的视频和语音信息进行合成;
[0012]生成字幕贴纸步骤:根据获取的语音信息生成对应的字幕,将字幕与视频的对应帧数据进行合成,得到完成拍摄的视频。
[0013]进一步地,所述语音唤醒步骤中,所述语音识别系统识别语音的具体方法为:
[0014]声音信号采集子步骤:通过设备里所带的麦克风、语音采集模块把对声音信号进行储存;
[0015]声音信号处理子步骤:首先利用谱减法的降噪处理方式对声音信号进行去噪,留得有用的声音信号,然后利用预加重的预处理方式增加语音信号特征;
[0016]特征提取子步骤:对声音信号中的语音特征进行提取;
[0017]分类识别子步骤:语音识别系统根据对输入语音的限制进行分类。
[0018]进一步地,在所述视频录制步骤中,定义缓存队列音频缓存和视频缓存的队列长度都是1;
[0019]设备的启动和停止的具体过程如下:
[0020]使用MediaCodec启动录制缓存视频和音频;
[0021]通过AudioRecord读取音频数据,处理成线性PCM编码格式音频数据,传递给CNN

VAD模块;
[0022]在CNN

VAD模块,通过频域的滑动平均或移动平均算法来识别是否有语音活动;
[0023]将设备的视频录制定义为说话模式和非说话模式两种状态;
[0024]当有语音活动并且分贝大于57db,就表示有人声,设备进入说话模式,在说话模式下,持续缓存数据(视频和音频),通过pcm重采样,使用c++jni将音频数据转换成科大讯飞听写要求的pcm格式;
[0025]当语音停止并且分贝小于57db的过程持续500毫秒,设备进入非说话模式,此时设备保存之前的缓存数据,开始下一段数据缓存处理,在非说话模式下,设备停止录制MediaCodec将数据编码,MediaMuxer将数据封装成mp4保存;
[0026]将得到的pcm格式音频数据,通过科大讯飞sdk传入pcm数据,得到音频内容的数据,包括对应时间点的某个单词;
[0027]然后使用美摄sdk通过API来编辑视频,
[0028]nvsAudioTrack.addClip(recordStickerItem.voicePath,inPoint)
[0029]最终在对应视频的时间点加上字幕。
[0030]进一步地,所述语音识别系统包括:特定人语音识别系统:仅考虑对于专人的话音进行识别;非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
[0031]进一步地,在所述语音唤醒步骤中,设备的语音唤醒具体过程如下:首先对输入的唤醒命令进行语音端点检测,接着对唤醒命令的语音信号降噪处理,然后提取声学特征进行识别解码,之后进行置信度判别,唤醒成功后发送送到服务器进行在线解码,最后获取到识别结果。
[0032]进一步地,在所述音视频合成步骤中,音视频合成的步骤如下:
[0033]数据采集子步骤:将音视频数据通过麦克风和摄像头输入采集到设备;
[0034]音视频数据处理子步骤:将视频文件数据分割成帧队,将音频文件数据转化成PCM格式,处理后的音频文件数据放到对应的帧队列里面;
[0035]编码压缩数据子步骤:音视频编码器采用视频编码算法对音视频数据进行压缩;
[0036]封装视频子步骤:设置编码格式后编码得到对应的数据。
[0037]进一步地,在所述生成字幕贴纸步骤中,首先对视频进行解码,把视频数据解码成帧数据,然后对所有帧数据进行渲染字幕和贴纸特效,最后把视频帧数据和渲染后的帧数据封装合成视频。
[0038]进一步地,在所述音频处理步骤中,通过科大讯飞语音听写得到识别结果,语音听写过程如下:
[0039]初始化听写引擎;
[0040]设置听写引擎参数,将pcm格式的外部文件作为音频来源;
[0041]将pcm格式的外部文件作为音频来源;
[0042]设置听写引擎监听命令后开始监听。
[0043]进一步地,所述语音唤醒步骤中,语音唤醒的具体步骤如下:
[0044]S1.初始化;
[0045]S1.1.初始化事件管理对象;
[0046]SDK中,通过工厂创建语音识别的事件管理器;
[0047]S1.2.自定义输出事件类;
[0048]SDK中,需要实现事件监听器的输出事件回调接口,该类需要处理SDK在识别过程中的回调事件;
[0049]S1.3.注册自己的输出事件类;
[0050]S2.识别;
[0051]S2.1设置识别输入参数;
[0052]默认为麦克风输入;
[0053]S2.2发送start开始事件;
[0054]S3收到回调事件;
[0055]S3.1开始回调事件;
[0056]S4控制识别;
[0057]S4.1控制停止识别;
[0058]进一步地,所述语音识别系统包括科大讯飞语音听写模块、基于卷积神经网络的语音活动检测模块、美摄SDK模块和相芯faceunity本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的视频拍摄方法,其特征在于,包括以下步骤:语音唤醒步骤:设备通过语音识别系统获取语音唤醒命令,设备获取唤醒命令后进入音频和视频录制预备状态;音视频录制步骤:设备根据预定的语音分贝值进入音频、视频录制状态,语音小于预定的分贝值时,设备停止音频、录制视频;音频处理步骤:在视频录制时,通过语音识别系统获取单独的音频文件,并把音频文件数据转化成PCM格式;音视频合成步骤:将录制的视频和语音信息进行合成;生成字幕贴纸步骤:根据获取的语音信息生成对应的字幕,将字幕与视频的对应帧数据进行合成,得到完成拍摄的视频。2.根据权利要求1所述的一种基于语音识别的视频拍摄方法,其特征在于,所述语音唤醒步骤中,所述语音识别系统识别语音的具体方法为:声音信号采集子步骤:通过设备里所带的麦克风、语音采集模块把对声音信号进行储存;声音信号处理子步骤:首先利用谱减法的降噪处理方式对声音信号进行去噪,留得有用的声音信号,然后利用预加重的预处理方式增加语音信号特征;特征提取子步骤:对声音信号中的语音特征进行提取;分类识别子步骤:语音识别系统根据对输入语音的限制进行分类。3.根据权利要求1所述的一种基于语音识别的视频拍摄方法,其特征在于,在所述视频录制步骤中,定义缓存队列音频缓存和视频缓存的队列长度都是1;设备的启动和停止的具体过程如下:启动录制缓存视频和音频;读取音频数据,处理成线性PCM编码格式音频数据,传递给CNN

VAD模块;在CNN

VAD模块,通过频域的滑动平均或移动平均算法来识别是否有语音活动;将设备的视频录制定义为说话模式和非说话模式两种状态;当有语音活动并且分贝大于57db,就表示有人声,设备进入说话模式,在说话模式下,持续缓存数据(视频和音频),通过pcm重采样,使用c++jni将音频数据转换成科大讯飞听写要求的pcm格式;当语音停止并且分贝小于57db的过程持续500毫秒,设备进入非说话模式,此时设备保存之前的缓存数据,开始下一段数据缓存处理,在非说话模式下,设备停止录制时将数据编码,同时将数据封装成mp4保存;将得到的pcm格式音频数据,通过科大讯飞sdk传入pcm数据,得到音频内容的数据,包括对应时间点的某个单词;然后使用美摄sdk通过API来编辑视频,最终在对应视频的时间点加上字幕。4.根据权利要求2所述的一种基于语音识别的视频拍摄方法,其特征在于,所述语音识别系统包括:特定人语音识别系统:仅考虑对于专人的话音进行识别;非特定人语音系统:识别的语音与人无关,...

【专利技术属性】
技术研发人员:童明
申请(专利权)人:武汉氪细胞网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1