一种基于音视频结合的商户收款系统及方法技术方案

技术编号:20120204 阅读:22 留言:0更新日期:2019-01-16 12:29
本发明专利技术公开了一种基于音视频结合的商户收款系统及方法,其通过向用户展示随机抽取的提取词;并采集用户在朗读所述提取词时的人脸信息;对所述人脸信息进行唇部运动信息的识别;并且,采集用户在朗读所述提取词时的语音信息;通过融合所述语音信息和所述唇部运动信息进行声纹识别,得到音视频融合声纹信息;然后,根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证;以及将所述语音信息与所展示的提取词进行对照,判断是否匹配;最后在完成身份验证和提取词匹配后进行扣款;用户在支付过程中只需朗读系统随机展示的提取词,即可根据用户朗读过程中提取的人脸信息和音视频融合声纹信息进行支付验证,用户无需操作其他设备,体验度更好。

A Business Payment System and Method Based on Audio-Video Combination

The invention discloses a merchant collection system and method based on audio-video combination, which displays randomly extracted words to users, collects face information when users read the extracted words aloud, recognizes lip movement information of the face information, and collects voice information when users read the extracted words aloud, and integrates the voice information and the extracted words. The lip movement information is used for voiceprint recognition, and the audio-video fusion voiceprint information is obtained; then, the user is authenticated according to the face information and the audio-video fusion voiceprint information; and the voice information is compared with the extracted words displayed to determine whether it matches or not; finally, the user deducts money after completing the authentication and matching of extracted words; In the system, only the extracted words displayed randomly by the reading system can be paid according to the face information and audio-video fusion voiceprint information extracted during the reading process. Users do not need to operate other devices, and have a better experience.

【技术实现步骤摘要】
一种基于音视频结合的商户收款系统及方法
本专利技术涉及支付验证
,特别是一种基于音视频结合的商户收款系统及对应的方法。
技术介绍
目前,在人脸支付的时候,为了排除用户在消费时用他人的照片进行支付,有两种辅助检测方式:第一种是需要人体配合进行活体检测,这时,会需要用户配合眨眨眼、摇摇头之类的,用户体验不好;第二种情况是硬件支持活体检测,不需要用户配合,但是这样做的问题是,用户稍微看一眼支付镜头,可能就完成支付了,没有和用户互动,可能会在用户不知情的情况下完成支付。
技术实现思路
本专利技术为解决上述问题,提供了一种基于音视频结合的商户收款系统及方法,用户只需朗读系统随机展示的提取词,即可根据用户朗读过程中提取的人脸信息和音视频融合声纹信息进行支付验证,用户无需操作其他设备,体验度更好。为实现上述目的,本专利技术采用的技术方案为:一种基于音视频结合的商户收款系统,其包括:提取词展示模块,用于向用户展示随机抽取的提取词;摄像模块,用于采集用户在朗读所述提取词时的人脸信息;图像识别模块,用于对所述人脸信息进行唇部运动信息的识别;语音采集模块,用于采集用户在朗读所述提取词时的语音信息;音视频融合声纹识别模块,其通过融合所述语音信息和所述唇部运动信息以提取用户的增强语音,并对所述增强语音进行声纹识别,得到音视频融合声纹信息;身份验证模块,用于根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证;提取词验证模块,用于将所述语音信息与所展示的提取词进行对照,判断是否匹配;支付模块,用于在完成身份验证和提取词匹配后进行扣款。优选的,所述提取词展示模块中,所述提取词采用一串动态数字或者一组字母。优选的,所述摄像模块采用三维摄像头,并采集用户的三维人脸信息,所述身份验证模块将用户的三维人脸信息与服务器的预存身份验证信息进行匹配。优选的,还包括音质评估模块,用于对所述语音信息进行语音质量的评估;当所述语音信息的信噪比大于预设阈值时,则评估结果为语音质量好;当所述语音信息的信噪比小于或等于预设阈值时,则评估结果为语音质量差;并且,当语音质量好时,直接根据所述语音信息进行声纹识别;当语音质量差时,则通过所述音视频融合声纹识别模块对所述语音信息和所述唇部运动信息进行音视频融合声纹识别,得到音视频融合声纹信息。优选的,所述的音视频融合声纹识别,进一步包括:提取所述语音信息的声学特征;使用卷积神经网络从所述声学特征中提取语音特征;使用卷积神经网络从所述唇部运动信息中提取唇部特征;将所述语音特征和所述唇部特征进行拼接处理,得到音视频融合特征;使用循环神经网络从所述音视频融合特征中提取音视频融合信息;根据所述音视频融合信息提取用户的增强语音;根据所述增强语音进行声纹识别,得到音视频融合声纹信息。进一步的,使用卷积神经网络从所述声学特征中提取语音特征,是将语音信息中的冗余信息去除,并提取信号较强的人的语音特征;使用卷积神经网络从所述唇部运动信息中提取唇部特征,是指提取与语音特征相对应的唇部形状特征;将所述语音特征和所述唇部特征进行拼接处理,是指将所述语音特征与所述唇部特征进行匹配和进行矩阵拼接,得到音视频融合特征;使用循环神经网络从所述音视频融合特征中提取音视频融合信息,是对所述音视频融合特征的序列进行识别,并提取出与上下文相关的音视频融合信息;根据所述音视频融合信息提取用户的增强语音,是将目标人的语音从背景噪音或多人语音中提取出来,得到目标人的增强语音;根据所述增强语音进行声纹识别,是将所述增强语音与目标人的清晰语音进行比较和构建平方误差函数,并通过随机梯度下降算法最小化所述平方误差函数,利用所述平方差函数进行训练声纹识别模型,以及利用训练好的声纹识别模型对所述增强语音进行声纹识别。对应的,本专利技术还提供一种基于音视频结合的商户收款方法,其包括以下步骤:a.向用户展示随机抽取的提取词;b.采集用户在朗读所述提取词时的人脸信息;c.对所述人脸信息进行唇部运动信息的识别;d.采集用户在朗读所述提取词时的语音信息;e.通过融合所述语音信息和所述唇部运动信息以提取用户的增强语音,并对所述增强语音进行声纹识别,得到音视频融合声纹信息;f.根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证;g.将所述语音信息与所展示的提取词进行对照,判断是否匹配;h.在完成身份验证和提取词匹配后进行扣款。本专利技术的有益效果是:(1)本专利技术的商户收款系统及方法,用户在支付过程中只需朗读系统随机展示的提取词,即可根据用户朗读过程中提取的人脸信息和音视频融合声纹信息进行支付验证,用户无需操作其他设备,体验度更好;(2)本专利技术将唇部运动信息与声纹信息进行拼接融合,从而利用唇部运动信息来提升人多情况下的声纹识别的鲁棒性和准确性,从而对提取词进行验证,可实现智能活体的识别。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术一种基于音视频结合的商户收款系统的结构示意图;图2为本专利技术一种基于音视频结合的商户收款方法的流程简图;图3为本专利技术一种基于音视频结合的商户收款方法的音视频融合声纹识别的流程简图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术的一种基于音视频结合的商户收款系统,本专利技术的商户收款系统,可以是一个手持设备,也可以是其他符合要求的设备,首先在设备中提供一个支付的APP软件,在APP内进行用户身份信息的注册和采集用户的人脸信息、声纹信息进行预存,以便用户在使用APP进行付款时用于身份验证,该用户身份信息可存储于云端服务器中,并且,该支付APP软件还与银行卡绑定,以便于付款。本专利技术的商户收款系统包括:提取词展示模块,用于向用户展示随机抽取的提取词;摄像模块,用于采集用户在朗读所述提取词时的人脸信息;图像识别模块,用于对所述人脸信息进行唇部运动信息的识别;语音采集模块,用于采集用户在朗读所述提取词时的语音信息;音视频融合声纹识别模块,其通过融合所述语音信息和所述唇部运动信息以提取用户的增强语音,并对所述增强语音进行声纹识别,得到音视频融合声纹信息;身份验证模块,用于根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证;提取词验证模块,用于将所述语音信息与所展示的提取词进行对照,判断是否匹配;支付模块,用于在完成身份验证和提取词匹配后进行扣款。使用本专利技术的商户收款系统时,用户可自由在商店内挑选需要购买的物品,当人们选择好物品时,需要进行结账时,首选捕捉用户的三维人脸信息,判断用户的三维人脸信息是否与云端服务器上存储的人脸信息相匹配,若匹配则进入下一步;由于便利店周围环境因素的影响而导致支付失败,可能由于人多或其他噪音影响会导致机器不清楚的识别用户念的提取词信息,导致用户在念提取词的时候不清楚,不能完成验证,这时候就需要捕捉的唇部运动信息去进行对照。本专利技术的唇部运动信息不同于唇语识别,而是将唇部运动信息与所展示的提取词进行对照,判断二者是否匹配,从而利用唇部运动信息来提升人多情本文档来自技高网...

【技术保护点】
1.一种基于音视频结合的商户收款系统,其特征在于,包括:提取词展示模块,用于向用户展示随机抽取的提取词;摄像模块,用于采集用户在朗读所述提取词时的人脸信息;图像识别模块,用于对所述人脸信息进行唇部运动信息的识别;语音采集模块,用于采集用户在朗读所述提取词时的语音信息;音视频融合声纹识别模块,其通过融合所述语音信息和所述唇部运动信息以提取用户的增强语音,并对所述增强语音进行声纹识别,得到音视频融合声纹信息;身份验证模块,用于根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证;提取词验证模块,用于将所述语音信息与所展示的提取词进行对照,判断是否匹配;支付模块,用于在完成身份验证和提取词匹配后进行扣款。

【技术特征摘要】
1.一种基于音视频结合的商户收款系统,其特征在于,包括:提取词展示模块,用于向用户展示随机抽取的提取词;摄像模块,用于采集用户在朗读所述提取词时的人脸信息;图像识别模块,用于对所述人脸信息进行唇部运动信息的识别;语音采集模块,用于采集用户在朗读所述提取词时的语音信息;音视频融合声纹识别模块,其通过融合所述语音信息和所述唇部运动信息以提取用户的增强语音,并对所述增强语音进行声纹识别,得到音视频融合声纹信息;身份验证模块,用于根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证;提取词验证模块,用于将所述语音信息与所展示的提取词进行对照,判断是否匹配;支付模块,用于在完成身份验证和提取词匹配后进行扣款。2.根据权利要求1所述的一种基于音视频结合的商户收款系统,其特征在于:所述提取词展示模块中,所述提取词采用一串动态数字或者一组字母。3.根据权利要求1所述的一种基于音视频结合的商户收款系统,其特征在于:所述摄像模块采用三维摄像头,并采集用户的三维人脸信息,所述身份验证模块将用户的三维人脸信息与服务器的预存身份验证信息进行匹配。4.根据权利要求1所述的一种基于音视频结合的商户收款系统,其特征在于:还包括音质评估模块,用于对所述语音信息进行语音质量的评估;当所述语音信息的信噪比大于预设阈值时,则评估结果为语音质量好;当所述语音信息的信噪比小于或等于预设阈值时,则评估结果为语音质量差;并且,当语音质量好时,直接根据所述语音信息进行声纹识别;当语音质量差时,则通过所述音视频融合声纹识别模块对所述语音信息和所述唇部运动信息进行音视频融合声纹识别,得到音视频融合声纹信息。5.根据权利要求1所述的一种基于音视频结合的商户收款系统,其特征在于:所述的音视频融合声纹识别模块进行获取音视频融合声纹信息,进一步包括:提取所述语音信息的声学特征;使用卷积神经网络从所述声学特征中提取语音特征;使用卷积神经网络从所...

【专利技术属性】
技术研发人员:叶志坚李稀敏肖龙源蔡振华刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1