当前位置: 首页 > 专利查询>徐琼琼专利>正文

一种基于语音识别的视频文件处理方法技术

技术编号:24718379 阅读:49 留言:0更新日期:2020-07-01 00:41
本发明专利技术涉及一种基于语音识别的视频文件处理方法,接收视频播放语音指令,对视频播放语音指令进行语音识别,得到播放指令文本数据,将播放指令文本数据与预设的视频播放指令专用词典进行比对,确定是否为有效文本数据,若为有效文本数据,则将有效文本数据转换为视频播放控制指令,以控制启动视频播放应用,播放视频文件,在视频文件播放过程中,提取视频文件的各个视频图像帧以及视频文件的音频数据,分别对视频图像帧和音频数据进行处理,得到该视频文件的人脸图像库和音频库,最后输出人脸图像库和音频库。通过该视频文件处理方法能够有效可靠地提取出视频文件中的人脸图像以及音频关键字,实现视频文件的可靠处理,得到所需的数据信息。

【技术实现步骤摘要】
一种基于语音识别的视频文件处理方法
本专利技术涉及一种基于语音识别的视频文件处理方法。
技术介绍
目前,视频处理技术的应用越来越广泛。在视频处理领域,很多情况下需要对视频文件进行处理,获取到视频文件中的相关数据信息,现有的视频处理方法无法对视频文件进行可靠处理。
技术实现思路
本专利技术的目的在于提供一种基于语音识别的视频文件处理方法,用于解决现有的视频处理方法无法对视频文件进行可靠处理的问题。为了解决上述问题,本专利技术采用以下技术方案:一种基于语音识别的视频文件处理方法,包括:接收视频播放语音指令;对所述视频播放语音指令进行语音识别,得到播放指令文本数据;将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,若所述播放指令文本数据中存在所述视频播放指令专用词典中的至少一个词语,则判定所述播放指令文本数据为有效文本数据;将所述有效文本数据转换为视频播放控制指令;根据所述视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放;在所述视频文件播放过程中,提取所述视频文件的各个视频图像帧以及所述视频文件的音频数据;对于各个所述视频图像帧,提取各个所述视频图像帧包含的人脸图像;根据提取到的各人脸图像,建立所述视频文件的人脸图像库;将所述音频数据进行语音识别,得到音频文本数据;将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频文本数据中的目标音频关键字;根据提取得到的各目标音频关键字,建立所述视频文件的音频库;输出所述人脸图像库和音频库。优选地,所述将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,包括:将所述视频播放指令专用词典中的各个词语分别与所述播放指令文本数据进行比对,得到所述播放指令文本数据中是否存在所述视频播放指令专用词典中的词语。优选地,所述视频播放指令专用词典中的词语包括播放。优选地,所述视频播放指令专用词典中的词语还包括与播放相关的词语。优选地,所述将所述音频数据进行语音识别,得到音频文本数据,包括:将所述音频数据进行划分,划分成至少两个音频子数据,对各个所述音频子数据分别进行语音识别,得到音频文本子数据;相应地,将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频数据中的目标音频关键字,包括:将各个音频文本子数据输入至所述音频关键字数据库,提取各个音频文本子数据中的目标音频关键字。优选地,所述将各个音频文本子数据输入至所述音频关键字数据库,提取各个音频文本子数据中的音频关键字,包括:对于任意一个音频文本子数据,将所述音频关键字数据库中的各个音频关键字分别与该音频文本子数据进行比对,提取该音频文本子数据中的目标音频关键字。本专利技术的有益效果为:当需要对视频文件进行处理时,说出视频播放语音指令,将该视频播放语音指令进行语音识别,得到播放指令文本数据,然后需要对播放指令文本数据进行判断,根据预设的视频播放指令专用词典进行比对,若播放指令文本数据中存在视频播放指令专用词典中的至少一个词语,则判定该播放指令文本数据为有效文本数据,将有效文本数据转换为视频播放控制指令,根据视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放,通过这种语音识别控制启动视频播放的方式,相较于传统的点击视频文件控制启动视频播放的方式,智能化程度得到很大的提升,而且无需动作操作,提升控制便捷性;在视频文件播放过程中,提取视频文件的各个视频图像帧以及视频文件的音频数据,分别对各个视频图像帧以及音频数据进行处理,其中,对于提取各个视频图像帧包含的人脸图像,根据提取到的各人脸图像,建立视频文件的人脸图像库;将音频数据进行语音识别,得到音频文本数据,将音频文本数据输入至预设的音频关键字数据库,提取音频数据中的目标音频关键字,根据提取得到的各目标音频关键字,建立视频文件的音频库。因此,通过本专利技术提供的视频文件处理方法能够有效可靠地提取出视频文件中的人脸图像以及音频关键字,实现视频文件的可靠处理,得到所需的数据信息。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍:图1是基于语音识别的视频文件处理方法的流程示意图。具体实施方式本实施例提供一种基于语音识别的视频文件处理方法,该视频文件处理方法的执行主体可以为台式电脑、笔记本电脑、智能移动终端等。由于需要获取到语音信号,因此,执行主体上需要设置有麦克风等语音采集设备,比如笔记本电脑或者智能移动终端自带的麦克风。由于需要控制进行视频文件播放,因此,执行主体中需要安装有视频播放应用,比如目前一些主流的视频播放软件程序,若安装有多个视频播放应用,则指定其中一个视频播放应用作为视频文件的默认播放软件,在后续控制时启动该视频播放应用。如图1所示,视频文件处理方法包括以下步骤:接收视频播放语音指令:执行主体中存储有预设的视频文件,即需要处理的视频文件。当需要对视频文件进行处理时,操作人员说出视频播放语音指令。执行主体自带的麦克风或者执行主体配设的麦克风获取到操作人员的视频播放语音指令。对所述视频播放语音指令进行语音识别,得到播放指令文本数据:执行主体中内置有现有的语音识别算法,根据该语音识别算法将获取到的视频播放语音指令进行语音识别,得到播放指令文本数据。将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,若所述播放指令文本数据中存在所述视频播放指令专用词典中的至少一个词语,则判定所述播放指令文本数据为有效文本数据:执行主体中预设有一个视频播放指令专用词典,该视频播放指令专用词典包括至少一个词语,该视频播放指令专用词典中的各个词语均为控制视频播放的控制指令的相关词语,作为一个具体实施方式,视频播放指令专用词典中的词语包括“播放”,进一步地,还包括与“播放”相关的词语,比如“启动”、“打开”等等。将播放指令文本数据输入到该视频播放指令专用词典进行比对,本实施例给出一种实现过程,将视频播放指令专用词典中的各个词语分别与播放指令文本数据进行比对,也就是说,对于视频播放指令专用词典中的任意一个词语,将该词语输入到播放指令文本数据中,判断播放指令文本数据中是否存在该词语。那么,最终得到播放指令文本数据中是否存在视频播放指令专用词典中的词语。若播放指令文本数据中存在视频播放指令专用词典中的至少一个词语,即播放指令文本数据中存在视频播放指令专用词典中的词语,那么,判定播放指令文本数据为有效文本数据。将所述有效文本数据转换为视频播放控制指令:将得到的有效文本数据转换为视频播放控制指令,作为一个具体实施方式,视频播放控制指令可以是一特定的数据串。根据所述视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放:根据得到的视频播放控制指令,控制启动已安装或者默认的视频播放应用,本文档来自技高网...

【技术保护点】
1.一种基于语音识别的视频文件处理方法,其特征在于,包括:/n接收视频播放语音指令;/n对所述视频播放语音指令进行语音识别,得到播放指令文本数据;/n将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,若所述播放指令文本数据中存在所述视频播放指令专用词典中的至少一个词语,则判定所述播放指令文本数据为有效文本数据;/n将所述有效文本数据转换为视频播放控制指令;/n根据所述视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放;/n在所述视频文件播放过程中,提取所述视频文件的各个视频图像帧以及所述视频文件的音频数据;/n对于各个所述视频图像帧,提取各个所述视频图像帧包含的人脸图像;/n根据提取到的各人脸图像,建立所述视频文件的人脸图像库;/n将所述音频数据进行语音识别,得到音频文本数据;/n将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频文本数据中的目标音频关键字;/n根据提取得到的各目标音频关键字,建立所述视频文件的音频库;/n输出所述人脸图像库和音频库。/n

【技术特征摘要】
1.一种基于语音识别的视频文件处理方法,其特征在于,包括:
接收视频播放语音指令;
对所述视频播放语音指令进行语音识别,得到播放指令文本数据;
将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,若所述播放指令文本数据中存在所述视频播放指令专用词典中的至少一个词语,则判定所述播放指令文本数据为有效文本数据;
将所述有效文本数据转换为视频播放控制指令;
根据所述视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放;
在所述视频文件播放过程中,提取所述视频文件的各个视频图像帧以及所述视频文件的音频数据;
对于各个所述视频图像帧,提取各个所述视频图像帧包含的人脸图像;
根据提取到的各人脸图像,建立所述视频文件的人脸图像库;
将所述音频数据进行语音识别,得到音频文本数据;
将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频文本数据中的目标音频关键字;
根据提取得到的各目标音频关键字,建立所述视频文件的音频库;
输出所述人脸图像库和音频库。


2.根据权利要求1所述的基于语音识别的视频文件处理方法,其特征在于,所述将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,包括:
将所述视频播放指令专用词典中的各个词语分别与所述播放...

【专利技术属性】
技术研发人员:徐琼琼陈海清
申请(专利权)人:徐琼琼
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1