视频音频识别方法、设备、存储介质及装置制造方法及图纸

技术编号:24251621 阅读:48 留言:0更新日期:2020-05-22 23:37
本发明专利技术公开了一种视频音频识别方法、设备、存储介质及装置,该方法通过接收用户输入的目标业务类型,根据所述目标业务类型查找对应的目标业务文案,将所述目标业务文案进行展示,拍摄所述用户朗读所述目标业务文案的目标视频,通过音视频分离器对所述目标视频进行音频分离,获得目标音频信息,通过语音朗读减少手动输入的繁琐步骤;对所述目标音频信息进行文字识别,获得目标信息,对所述目标视频进行抽帧处理,获得用户图片,以对用户身份实现验证;根据所述用户图片和所述目标信息生成所述用户的目标业务文档,基于人工智能,通过解析视频获得多方面的数据,验证用户身份的同时提升用户的信息录入效率。

Video and audio recognition method, equipment, storage medium and device

【技术实现步骤摘要】
视频音频识别方法、设备、存储介质及装置
本专利技术涉及人工智能的
,尤其涉及一种视频音频识别方法、设备、存储介质及装置。
技术介绍
金融场景中在对用户进行真实的校验需求时,需要对用户的数据真实性反复收集再验证真假,以便尽可能提升风控能力,以尽可能的精确评价用户的贷款金融,目标是精准风控。在目前贷款场景中,比较常见都会增加一个身份验证的过程,验证通过后在通过用户在网页或者应用程序(Application,APP)中输入信息,以进行用户资料的收集,如此繁琐的操作,会导致页面比较多,异常也会增加,用户信息的录入耗时长,对于用户体验也非常差。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种视频音频识别方法、设备、存储介质及装置,旨在解决现有技术中用户信息的录入操作繁琐导致耗时长的技术问题。为实现上述目的,本专利技术提供一种视频音频识别方法,所述视频音频识别方法包括以下步骤:接收用户输入的目标业务类型,根据所述目标业务类型查找对应的目标业务文案,将所述目标业务文案进行展示;拍摄所述用户朗读所述目标业务文案的目标视频,通过音视频分离器对所述目标视频进行音频分离,获得目标音频信息;对所述目标音频信息进行文字识别,获得目标信息;对所述目标视频进行抽帧处理,获得用户图片;根据所述用户图片和所述目标信息生成所述用户的目标业务文档。优选地,所述对所述目标音频信息进行文字识别,获得目标信息,包括:对所述目标音频信息进行文字识别,获得对应的文本信息;将所述文本信息与所述目标业务文案进行比对,获得所述文本信息的正确率;在所述正确率大于预设正确率阈值时,通过正则表达式对所述文本进行信息提取,获得目标信息。优选地,所述在所述正确率大于预设正确率阈值时,通过正则表达式对所述文本进行信息提取,获得目标信息之后,所述视频音频识别方法包括:判断所述目标信息是否满足预设规则;若不满足,则进行提示,以使所述用户重新朗读所述目标业务文案;若满足,则执行所述对所述目标视频进行抽帧处理,获得用户图片的步骤。优选地,所述对所述目标视频进行抽帧处理,获得用户图片之前,所述视频音频识别方法还包括:对所述目标视频进行人脸识别,对识别到的人脸进行活体检测;在活体检测成功时,执行所述对所述目标视频进行抽帧处理,获得用户图片的步骤。优选地,所述对所述目标视频进行人脸识别,对识别到的人脸进行活体检测,包括:对所述目标视频进行人脸识别,对识别到的人脸的眼部区域进行截取,获得眼部区域图像;通过预设眨眼模型识别所述眼部区域图像是否有眨眼动作;若识别到所述眼部区域图像有眨眼动作,则认定活体检测成功。优选地,所述对所述目标视频进行抽帧处理,获得用户图片之后,所述视频音频识别方法还包括:对所述用户图片进行预处理,获得预处理图片;根据清晰度对所述预处理图片进行筛选,获得筛选图片;将所述筛选图片与预设图片进行对比,获得比对结果;相应地,所述根据所述用户图片和所述目标信息生成所述用户的目标业务文档,包括:在所述对比结果超过预设相似度阈值时,根据所述筛选图片和所述目标信息生成所述用户的目标业务文档。优选地,所述拍摄所述用户朗读所述目标业务文案的目标视频,通过音视频分离器对所述目标视频进行音频分离,获得目标音频信息,包括:播放目标音乐的同时,拍摄所述用户朗读所述目标业务文案的目标视频;通过音视频分离器对所述目标视频进行音频分离,获得混合音频信息;通过计算听觉场景分析算法从所述混合音频信息中提取所述用户朗读所述目标业务文案的目标音频信息。此外,为实现上述目的,本专利技术还提出一种视频音频识别设备,所述视频音频识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频音频识别程序,所述视频音频识别程序配置为实现如上文所述的视频音频识别方法的步骤。此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有视频音频识别程序,所述视频音频识别程序被处理器执行时实现如上文所述的视频音频识别方法的步骤。此外,为实现上述目的,本专利技术还提出一种视频音频识别装置,所述视频音频识别装置包括:查找模块,用于接收用户输入的目标业务类型,根据所述目标业务类型查找对应的目标业务文案,将所述目标业务文案进行展示;音频分离模块,用于拍摄所述用户朗读所述目标业务文案的目标视频,通过音视频分离器对所述目标视频进行音频分离,获得目标音频信息;文字识别模块,用于对所述目标音频信息进行文字识别,获得目标信息;抽帧处理模块,用于对所述目标视频进行抽帧处理,获得用户图片;生成模块,用于根据所述用户图片和所述目标信息生成所述用户的目标业务文档。本专利技术中,通过接收用户输入的目标业务类型,根据所述目标业务类型查找对应的目标业务文案,将所述目标业务文案进行展示,拍摄所述用户朗读所述目标业务文案的目标视频,通过音视频分离器对所述目标视频进行音频分离,获得目标音频信息,通过语音朗读减少手动输入的繁琐步骤;对所述目标音频信息进行文字识别,获得目标信息,对所述目标视频进行抽帧处理,获得用户图片,以对用户身份实现验证;根据所述用户图片和所述目标信息生成所述用户的目标业务文档,基于人工智能,通过解析视频获得多方面的数据,验证用户身份的同时提升用户的信息录入效率。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的视频音频识别设备的结构示意图;图2为本专利技术视频音频识别方法第一实施例的流程示意图;图3为本专利技术视频音频识别方法第二实施例的流程示意图;图4为本专利技术视频音频识别方法第三实施例的流程示意图;图5为本专利技术视频音频识别装置第一实施例的结构框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参照图1,图1为本专利技术实施例方案涉及的硬件运行环境的视频音频识别设备结构示意图。如图1所示,该视频音频识别设备可以包括:处理器1001,例如中央处理器(CentralProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本专利技术中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccessMemory本文档来自技高网...

【技术保护点】
1.一种视频音频识别方法,其特征在于,所述视频音频识别方法包括以下步骤:/n接收用户输入的目标业务类型,根据所述目标业务类型查找对应的目标业务文案,将所述目标业务文案进行展示;/n拍摄所述用户朗读所述目标业务文案的目标视频,通过音视频分离器对所述目标视频进行音频分离,获得目标音频信息;/n对所述目标音频信息进行文字识别,获得目标信息;/n对所述目标视频进行抽帧处理,获得用户图片;/n根据所述用户图片和所述目标信息生成所述用户的目标业务文档。/n

【技术特征摘要】
1.一种视频音频识别方法,其特征在于,所述视频音频识别方法包括以下步骤:
接收用户输入的目标业务类型,根据所述目标业务类型查找对应的目标业务文案,将所述目标业务文案进行展示;
拍摄所述用户朗读所述目标业务文案的目标视频,通过音视频分离器对所述目标视频进行音频分离,获得目标音频信息;
对所述目标音频信息进行文字识别,获得目标信息;
对所述目标视频进行抽帧处理,获得用户图片;
根据所述用户图片和所述目标信息生成所述用户的目标业务文档。


2.如权利要求1所述的视频音频识别方法,其特征在于,所述对所述目标音频信息进行文字识别,获得目标信息,包括:
对所述目标音频信息进行文字识别,获得对应的文本信息;
将所述文本信息与所述目标业务文案进行比对,获得所述文本信息的正确率;
在所述正确率大于预设正确率阈值时,通过正则表达式对所述文本进行信息提取,获得目标信息。


3.如权利要求2所述的视频音频识别方法,其特征在于,所述在所述正确率大于预设正确率阈值时,通过正则表达式对所述文本进行信息提取,获得目标信息之后,所述视频音频识别方法包括:
判断所述目标信息是否满足预设规则;
若不满足,则进行提示,以使所述用户重新朗读所述目标业务文案;
若满足,则执行所述对所述目标视频进行抽帧处理,获得用户图片的步骤。


4.如权利要求1所述的视频音频识别方法,其特征在于,所述对所述目标视频进行抽帧处理,获得用户图片之前,所述视频音频识别方法还包括:
对所述目标视频进行人脸识别,对识别到的人脸进行活体检测;
在活体检测成功时,执行所述对所述目标视频进行抽帧处理,获得用户图片的步骤。


5.如权利要求4所述的视频音频识别方法,其特征在于,所述对所述目标视频进行人脸识别,对识别到的人脸进行活体检测,包括:
对所述目标视频进行人脸识别,对识别到的人脸的眼部区域进行截取,获得眼部区域图像;
通过预设眨眼模型识别所述眼部区域图像是否有眨眼动作;
若识别到所述眼部区域图像有眨眼动作,则认定活体检测成功。


6.如权利要求1所述的视...

【专利技术属性】
技术研发人员:黄超
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1