【技术实现步骤摘要】
基于人脸识别的可视化对讲方法和系统
本专利技术涉及人脸识别的
,特别涉及基于人脸识别的可视化对讲方法和系统。
技术介绍
目前,住宅小区或者办公大厦等场所都安装有视频监控/通话设备,通过该视频监控/通话设备对该场所进行访客视频监控和通话,以此实现与访客进行可视化对讲和对访客提供适应性的相应反馈响应,从而对访客进行放行准入控制。但是,这种方式只能在同一时间对单一访客进行可视化对讲,并且其不会对访客的身份信息进行认证,这不仅降低了与访客进行可视化对讲的效率,并且还需要增加额外的人力物力来与访客进行可视化对讲互动,这不利于提高与访客进行可视化对讲互动的自动化和智能化程度,同时还大大地降低了可视化对讲互动的可靠性和效率。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供基于人脸识别的可视化对讲方法和系统,其通过对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像,并对该脸部图像进行分析处理,以此确定该目标对象的身份信息,并根据该身份信息,确定与该目标对象进行可视化通话的模式,在该可视化通话的过程 ...
【技术保护点】
1.基于人脸识别的可视化对讲方法,其特征在于,其包括如下步骤:/n步骤S1,对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像,并对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息;/n步骤S2,根据所述身份信息,确定与所述目标对象进行可视化通话的模式,在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理;/n步骤S3,对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作。/n
【技术特征摘要】
1.基于人脸识别的可视化对讲方法,其特征在于,其包括如下步骤:
步骤S1,对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像,并对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息;
步骤S2,根据所述身份信息,确定与所述目标对象进行可视化通话的模式,在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理;
步骤S3,对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作。
2.如权利要求1所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S1中,对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像,并对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息具体包括:
步骤S101,对所述目标对象的脸部区域进行多角度方位拍摄,以此获取关于所述目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像,并对所述上侧脸部区域图像、所述下侧脸部区域图像、所述左侧脸部区域图像和所述右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理,从而获得关于所述目标对象的三维脸部图像;
步骤S102,从所述三维脸部图像中提取得到相应的脸部五官轮廓信息,并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对,以此确定所述目标对象的身份信息。
3.如权利要求2所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S2中,根据所述身份信息,确定与所述目标对象进行可视化通话的模式,在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理具体包括:
步骤S201,根据所述身份信息,确定所述目标对象是否为预设合法可视化通话对象,若是,则向所述目标对象提供触控交互模式的可视化通话服务,若否,则终止与所述目标对象进行任何信息交互;
步骤S202,在提供所述触摸交互模式的可视化通话服务过程中,采集来自所述目标对象的语音信号;
步骤S203,对所述语音信号进行卡尔曼滤波处理,以此去除所述语音信号中的背景噪声成分。
4.如权利要求3所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S3中,对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作具体包括:
步骤S301,根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分;
步骤S302,对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息;
步骤S303,根据所述语义信息,从预设控制命令语义数据库中确定与所述语义信息相匹配的控制命令,并根据所述控制命令,向所述目标对象提供相应的应答语音和/或门禁开启权限。
5.如权利要求4所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S301中,根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分具体包括:
利用下面公式(1),预处理后的所述语音信号以及所述目标对象的声纹特征,提取只关于所述目标对象的语音信号,
Si,M=Si×u[Si-min(S)]×u[max(S)-Si](1)
在上述公式(1)中,Si,M表示只关于所述目标对象的语音信号中第i帧信号幅值,Si表示预处理后的所述语音信号中第i帧信号幅值,min(S)表示所述目标对象的声纹特征中最小的信号幅值,max(S)表示所述目标对象的声纹特征中最大的信号幅值,u[]表示阶跃函数、当括号内的值大于等于0时阶跃函数的函数值为1,当括号内的值小于0时阶跃函数的函数值为0;
将所述预处理后的所述语音信号中的每一帧信号均利用上述公式(1)进行处理,从而得到只关于所述目标对象的语音信号,并且只关于所述目标对象的语音信号的第a帧信号幅值记为Sa,M;
以及,
在所述步骤S302中,对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息具体包括:
第一、利用下面公式(2),将所述目标对象的语音信号进行语义分割,得到所述目标对象的语音信号每一帧的归类情况,
在上述公式(2)中,Ii表示所述只关于所述目标对象的语音信号中第i帧信号属于分割后的语音信号中的第Ii类语义信号,Sa,M表示只关于所述目标对象的语音信号中第a帧信号幅值,Sa-1,M表示只关于所述目标对象的语音信号中第a-1帧信号幅值,δ()表示单位冲激函数、当括号内的值等于0时单位冲激函数的函数值为1,当括号内的值不等于0时单位冲激函数的函数值为0;
将所述目标对象按照上述公式(2)进行语义分割,并将分割后的每一帧信号进行归类并将分割后的语音信号记做表示分割后的目...
【专利技术属性】
技术研发人员:兰雨晴,余丹,杨文昭,王丹星,
申请(专利权)人:中标慧安信息技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。