一种安卓终端支持实时语音识别的双录方法技术

技术编号:34773671 阅读:24 留言:0更新日期:2022-08-31 19:40
本发明专利技术公开了一种安卓终端支持实时语音识别的双录方法,包含以下步骤:1)通过终端摄像头获取双录人员的视频数据,并全屏显示在屏幕上;2)将终端屏幕摄像头预览视图和双录交互视图一起进行屏幕录制;3)录制屏幕的同时,通过终端麦克风获取音频数据并加以处理,进行实时语音识别;4)将步骤二里录制的视频流数据和步骤三的音频流数据进行合流,生成mp4文件。本发明专利技术解决了在使用双录功能的过程中,既可以把双录人员在手机上的操作都录制到视频里,又可以做到实时采集双录里的音频流进行分析,用于识别双录人员的回答,在提升了双录用户使用体验的同时,又为双录智能质检提供了一项语音识别的能力。别的能力。别的能力。

【技术实现步骤摘要】
一种安卓终端支持实时语音识别的双录方法


[0001]本专利技术涉及一种音频采集技术,具体是一种安卓终端支持实时语音识别的双录方法

技术介绍

[0002]目前市场上的同类产品(保险本地双录)一般有以下2种做法
[0003]1.通过Android的摄像头和麦克风采集双录人员(销售人员和投保人)的画面及声音,也能对终端麦克风的声音进行识别,但无法将手机屏幕里的操作内容录制进视频
[0004]2.通过MediaRecorder,MediaProjection实现录屏,能够采集双录人员(销售人员和投保人)的画面及声音,也能把手机屏幕里的操作内容录制进视频,但无法做到对视频里的声音进行语音识别。
[0005]上述方法能够将当前双录人员(销售人员和投保人)的画面和声音采集后上传到到服务器,供保险销售的回溯使用。但是双录的内容很容易受到限制,要么放弃手机屏幕里的操作内容的展示,要么舍弃语音识别功能,两者不可兼得。
[0006]因此,亟需提出一种双录方法,同时实现手机屏幕里的操作内容的展示和语音识别。

技术实现思路

[0007]本专利技术的目的在于提供一种安卓终端支持实时语音识别的双录方法,以解决上述
技术介绍
中提出的问题。
[0008]本专利技术的目的是通过以下技术方案来实现的:本专利技术实施例的第一方面提供了一种安卓终端支持实时语音识别的双录方法,包含以下步骤:
[0009](1)通过终端屏幕摄像头获取双录人员的视频数据,并全屏显示在屏幕上;
[0010](2)将终端屏幕摄像头预览视图和双录交互视图一起进行屏幕录制,得到视频流数据;
[0011](3)录制屏幕的同时,通过终端麦克风获取音频数据并加以处理,进行实时语音识别,得到音频流数据;
[0012](4)将步骤(2)里录制的视频流数据和步骤(3)采集的音频流数据进行合流,生成mp4文件。
[0013]进一步地,使用SurfaceView将终端摄像头获取双录人员的视频数据通过setPreviewSurface(surface)函数进行展示,并利用startPreview()函数开启预览。
[0014]进一步地,开启预览后的预览视图上覆盖有透明度的双录交互视图,用于对双录人员进行引导提示。
[0015]进一步地,利用VirtualDisplay软件获取屏幕和终端屏幕摄像头的图像元数据;再利用MediaCodec对获取的图像元数据进行编码封装成视频数据流。
[0016]进一步地,所述步骤(3)通过以下子步骤来实现:
[0017](3.1)录屏过程中,VirtualDisplay会将图像渲染到Surface中,该Surface由MediaCodec创建,MediaCodec用于提供对音视频压缩编码和解码功能;
[0018](3.2)将系统产生的音频数据交于MediaCodec进行处理,所述MediaCodec有两个ByteBuffer,包括一个输入ByteBuffer和一个输出ByteBuffer;
[0019](3.3)通过调用MediaCodec的dequeueInputBuffer返回输入缓冲区的索引,并通过该索引找到缓存区,即输入ByteBuffer;
[0020](3.4)对输入ByteBuffer进行拆分处理,转成pcm音频数据通过接口回调实时分发,用于进行语音识别;得到音频流数据。
[0021]进一步地,所述步骤(4)通过以下子步骤来实现:
[0022](4.1)通过调用MediaMuxer的addTrack(@NonNull MediaFormat format)函数添加一个音频或视频轨道,并返回对应的ID;
[0023](4.2)添加1个音频轨道和1个视频轨道之后,调用start()函数;
[0024](4.3)然后调用writeSampleData函数用于向Muxer写入编码后的音视频数据;
[0025](4.4)最终将音频元数据和图像元数据封装并输出,得到MP4文件。
[0026]本专利技术实施例的第二方面提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的安卓终端支持实时语音识别的双录方法。
[0027]本专利技术实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的安卓终端支持实时语音识别的双录方法。
[0028]本专利技术的有益效果是:本专利技术方法同时实现手机屏幕里的操作内容的展示和语音识别。本专利技术解决了在使用双录功能的过程中,既可以把双录人员在手机上的操作都录制到视频里,又可以做到实时采集双录里的音频流进行分析,用于识别双录人员的回答,在提升了双录用户使用体验的同时,又为双录智能质检提供了一项语音识别的能力。本专利技术解决了在双录(比如保险双录)过程中,销售人员使用安卓设备进行本地双录时体验不佳的问题,让终端录制的双录回溯视频既能看到在销售过程中双录人员(销售人员和投保人)的声音及图像,又能看到双录人员(销售人员和投保人)在手机上的操作内容,过程中的友好引导提示,最重要的是还能够准确识别投保人对问题所做的回答,大大提升了保险双录的使用体验和销售人员完成双录一次性通过的成功率。
附图说明
[0029]图1是本专利技术的整体流程图。
[0030]图2是本专利技术装置的示意图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]如图1所示,本专利技术提出了一种安卓终端支持实时语音识别的双录方法,本专利技术实
施例中双录人员为保险领域中的销售人员和投保人,所述方法具体包括以下步骤:
[0033](1)通过终端摄像头获取双录人员的视频数据,并全屏显示在屏幕上。
[0034]使用SurfaceView展示当前终端摄像头采集的内容;使用SurfaceView将终端屏幕摄像头采集的数据,通过调用Camera底下的setPreviewSurface(surface)函数展示出来,并通过调用Camera的startPreview()函数,开启预览,展示横屏全屏摄像头预览。
[0035]优选地,在摄像头预览视图上覆盖一层带有透明度的Action视图(双录交互视图);该视图主要作用为协助销售人员和投保人做一些引导提示,比如陈述话术播报,身份证识别提醒,语音识别结果提醒。
[0036](2)将终端屏幕摄像头预览视图和双录交互视图一起进行屏幕录制。
[0037]使用MediaCodec将VirtualDisplay软件获取终端屏幕摄像头的图像元数据;再利用MediaCodec对获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种安卓终端支持实时语音识别的双录方法,其特征在于,包含以下步骤:(1)通过终端屏幕摄像头获取双录人员的视频数据,并全屏显示在屏幕上;(2)将终端屏幕摄像头预览视图和双录交互视图一起进行屏幕录制,得到视频流数据;(3)录制屏幕的同时,通过终端麦克风获取音频数据并加以处理,进行实时语音识别,得到音频流数据;(4)将步骤(2)里录制的视频流数据和步骤(3)采集的音频流数据进行合流,生成mp4文件。2.根据权利要求1所述的一种安卓终端支持实时语音识别的双录方法,其特征在于,使用SurfaceView将终端摄像头获取双录人员的视频数据通过setPreviewSurface(surface)函数进行展示,并利用startPreview()函数开启预览。3.根据权利要求2所述的一种安卓终端支持实时语音识别的双录方法,其特征在于,开启预览后的预览视图上覆盖有透明度的双录交互视图,用于对双录人员进行引导提示。4.根据权利要求1所述的一种安卓终端支持实时语音识别的双录方法,其特征在于,利用VirtualDisplay软件获取屏幕和终端屏幕摄像头的图像元数据;再利用MediaCodec对获取的图像元数据进行编码封装成视频数据流。5.根据权利要求1所述的一种安卓终端支持实时语音识别的双录方法,其特征在于,所述步骤(3)通过以下子步骤来实现:(3.1)录屏过程中,VirtualDisplay会将图像渲染到Surface中,该Surface由MediaCodec创建,MediaCodec用于提供对音视频压缩编码和解码功能;(3.2)将系统产生的音频数据交于...

【专利技术属性】
技术研发人员:谢春江周光辉
申请(专利权)人:杭州微易信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1