基于音视频录制的语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:26036760 阅读:15 留言:0更新日期:2020-10-23 21:15
本发明专利技术公开了一种基于音视频录制的语音识别方法、装置、设备及存储介质,所述方法包括:当接收到音视频录制请求时,实时获取视频数据以及音频数据;将所述音频数据复制为目标音频数据,并将所述目标音频数据存储到内存队列中;将所述视频数据和所述音频数据生成为音视频文件,并从所述内存队列中读取所述目标音频数据进行识别,生成识别结果,以对音视频录制时的语音进行识别。本发明专利技术通过将音频数据复制到内存队列,从内存队列中读取视频数据即可进行识别,使得音视频录制和语音识别功能同时实现,提升了音视频录制和语音识别的整体处理效率。

【技术实现步骤摘要】
基于音视频录制的语音识别方法、装置、设备及存储介质
本专利技术涉及音视频处理
,尤其涉及一种基于音视频录制的语音识别方法、装置、设备及存储介质。
技术介绍
随着技术的发展,音视频录制的使用场景越来越多,如执法过程中通过录制音视频记录执法人员对执法事项的处理,或者金融机构通过录制音视频记录客户对金融事项的处理。该类记录除了录制音视频之外,还需要对所录制音视频中的语音进行识别,以确保事项处理过程中的语言合法准确。目前,音视频录制功能和语音识别功能都需要占用音频通道,对于某些录制终端并不支持两者的同时进行,若音视频录制对音频通道占用,则不能通过音频通道读取音频数据进行语音识别;或者通过音频通道输入音频数据进行语音识别,则不能通过音频通道实现音视频录制。如此一来,导致对于音视频录制功能和语音识别功能,在获取到音频数据后分别先后处理实现,在先处理功能的异常性或耗时较长直接影响到在后处理功能的实现时长。
技术实现思路
本专利技术的主要目的在于提供一种基于音视频录制的语音识别方法、装置、设备及存储介质,旨在解决现有技术中对于音视频录制功能和语音识别功能的先后处理机制,导致在后处理功能的实现时长受在先处理功能的处理时长影响的技术问题。为实现上述目的,本专利技术提供一种基于音视频录制的语音识别方法,所述基于音视频录制的语音识别方法包括以下步骤:当接收到音视频录制请求时,实时获取视频数据以及音频数据;将所述音频数据复制为目标音频数据,并将所述目标音频数据存储到内存队列中;将所述视频数据和所述音频数据生成为音视频文件,并从所述内存队列中读取所述目标音频数据进行识别,生成识别结果,以对音视频录制时的语音进行识别。可选地,所述从所述内存队列中读取所述目标音频数据进行识别,生成识别结果的步骤包括:逐一从所述内存队列中读取所述音频数据,并对所述音频数据进行过滤,生成待处理音频数据;检测预设音频库中是否存在与所述待处理音频数据对应的参考音频,若存在所述参考音频,则调用与所述参考音频对应的文字信息,并将所述文字信息生成为所述识别结果。可选地,所述检测预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括:将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比,确定所述待处理音频数据与各项所述音频元素之间的匹配率;根据各项所述匹配率,确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频。可选地,所述根据各项所述匹配率,确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括:从各项所述匹配率中确定出最大匹配率,并判断所述最大匹配率是否大于预设阈值;若所述最大匹配率大于预设阈值,则将所述最大匹配率对应的音频元素确定为所述参考音频,判定所述预设音频库中存在所述参考音频;若所述最大匹配率小于或等于预设阈值,则判定所述预设音频库中不存在所述参考音频。可选地,所述将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比,确定所述待处理音频数据与各项所述音频元素之间的匹配率的步骤包括:调用所述预设音频库的各项音频元素,并针对各项所述音频元素分别执行以下步骤:确定与所述音频元素对应的衍生音频元素,并将所述待处理音频数据分别和所述音频元素,以及所述衍生音频元素对比,生成多个元素匹配率;将多个所述元素匹配率的最大值,确定为所述待处理音频数据与所述音频元素之间的匹配率。可选地,所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括:读取所述视频数据的第一时间戳,以及所述音频数据的第二时间戳;将所述第一时间戳和所述第二时间戳匹配,生成所述第一时间戳和所述第二时间戳之间的匹配关系;根据所述匹配关系,对所述视频数据和所述音频数据进行合成,生成为音视频文件。可选地,所述从所述内存队列中读取所述目标音频数据进行识别,生成识别结果,以对音视频录制时的语音进行识别的步骤之后包括:根据所述识别结果,对音视频录制的进程进行控制。进一步地,为实现上述目的,本专利技术还提供一种基于音视频录制的语音识别装置,所述基于音视频录制的语音识别装置包括:获取模块,用于当接收到音视频录制请求时,实时获取视频数据以及音频数据;存储模块,用于将所述音频数据复制为目标音频数据,并将所述目标音频数据存储到内存队列中;音视频合成模块,用于将所述视频数据和所述音频数据生成为音视频文件;语音识别模块,用于从所述内存队列中读取所述目标音频数据进行识别,生成识别结果,以对音视频录制时的音频数据进行识别。进一步地,为实现上述目的,本专利技术还提供一种基于音视频录制的语音识别设备,所述基于音视频录制的语音识别设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于音视频录制的语音识别程序,所述基于音视频录制的语音识别程序被所述处理器执行时实现如上述所述的基于音视频录制的语音识别方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种存储介质,所述存储介质上存储有基于音视频录制的语音识别程序,所述基于音视频录制的语音识别程序被处理器执行时实现如上所述的基于音视频录制的语音识别方法的步骤。本专利技术的基于音视频录制的语音识别方法、装置、设备及存储介质,在接收到音视频录制请求,表征具有录制音视频需求时,实时获取视频数据以及音频数据,并对音频数据进行复制,得到目标音频数据存储到内存队列中;进而将视频数据和音频数据生成为音视频文件,并从内存队列中读取出目标音频数据进行识别,生成识别结果,以此实现在音视频录制的同时,对录制的语音进行识别。因此,本专利技术通过将音频数据复制到内存队列,从内存队列中读取视频数据即可进行识别,使得音视频录制和语音识别功能同时实现,相对于音视频录制和语音识别的先后处理机制,避免了在先处理功能的处理时长对后处理功能实现时长的影响,减少在后处理功能等待时间的同时,提升了音视频录制和语音识别的整体处理效率。附图说明图1为本专利技术基于音视频录制的语音识别设备实施例方案涉及的设备硬件运行环境的结构示意图;图2为本专利技术基于音视频录制的语音识别方法第一实施例的流程示意图;图3为本专利技术基于音视频录制的语音识别装置较佳实施例的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种基于音视频录制的语音识别设备,参照图1,图1为本专利技术基于音视频录制的语音识别设备实施例方案涉及的设备硬件运行环境的结构示意图。如图1所示,该基于音视频录制的语音识别设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示本文档来自技高网...

【技术保护点】
1.一种基于音视频录制的语音识别方法,其特征在于,所述基于音视频录制的语音识别方法包括以下步骤:/n当接收到音视频录制请求时,实时获取视频数据以及音频数据;/n将所述音频数据复制为目标音频数据,并将所述目标音频数据存储到内存队列中;/n将所述视频数据和所述音频数据生成为音视频文件,并从所述内存队列中读取所述目标音频数据进行识别,生成识别结果,以对音视频录制时的语音进行识别。/n

【技术特征摘要】
1.一种基于音视频录制的语音识别方法,其特征在于,所述基于音视频录制的语音识别方法包括以下步骤:
当接收到音视频录制请求时,实时获取视频数据以及音频数据;
将所述音频数据复制为目标音频数据,并将所述目标音频数据存储到内存队列中;
将所述视频数据和所述音频数据生成为音视频文件,并从所述内存队列中读取所述目标音频数据进行识别,生成识别结果,以对音视频录制时的语音进行识别。


2.如权利要求1所述的基于音视频录制的语音识别方法,其特征在于,所述从所述内存队列中读取所述目标音频数据进行识别,生成识别结果的步骤包括:
逐一从所述内存队列中读取所述音频数据,并对所述音频数据进行过滤,生成待处理音频数据;
检测预设音频库中是否存在与所述待处理音频数据对应的参考音频,若存在所述参考音频,则调用与所述参考音频对应的文字信息,并将所述文字信息生成为所述识别结果。


3.如权利要求2所述的基于音视频录制的语音识别方法,其特征在于,所述检测预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括:
将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比,确定所述待处理音频数据与各项所述音频元素之间的匹配率;
根据各项所述匹配率,确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频。


4.如权利要求3所述的基于音视频录制的语音识别方法,其特征在于,所述根据各项所述匹配率,确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括:
从各项所述匹配率中确定出最大匹配率,并判断所述最大匹配率是否大于预设阈值;
若所述最大匹配率大于预设阈值,则将所述最大匹配率对应的音频元素确定为所述参考音频,判定所述预设音频库中存在所述参考音频;
若所述最大匹配率小于或等于预设阈值,则判定所述预设音频库中不存在所述参考音频。


5.如权利要求3所述的基于音视频录制的语音识别方法,其特征在于,所述将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比,确定所述待处理音频数据与各项所述音频元素之间的匹配率的步骤包括:
调用所述预设音频库的各项音频元素,并针对各项...

【专利技术属性】
技术研发人员:陈俣作朱健英
申请(专利权)人:前海人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1