一种应用于远程信息服务的人机交互识别系统技术方案

技术编号:7021433 阅读:232 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于计算机领域,特别是一种应用于远程信息服务的人机交互识别系统,其特征在于,提供网络信息服务的服务系统或其客户端至少具有一个人机交互识别装置;所述的人机交互识别装置包括:听觉采集模块,用于采集用户的语音信号;视觉采集模块,用于采集用户的人脸图像;第一预处理模块、人脸特征提取模块、人脸识别模块;第二预处理模块、语音特征提取模块、语音识别模块;第三预处理模块、人脸表情特征提取模块、人脸表情识别模块;第四预处理模块、语言情感特征提取模块、语言情感识别模块;显性识别融合模块,用于将人脸识别模块和语音识别模块的识别结果进行融合处理,形成综合了人脸特征和语音特征的识别结果;隐性识别融合模块,用于将人脸表情识别模块和语言情感识别模块的识别结果进行融合处理,形成综合了人脸表情特征和语音情感特征的识别结果。

【技术实现步骤摘要】

本专利技术属于计算机领域,特别是以人脸、脸部表情、语音、语音情感作为指令输入手段的人机交互识别系统。
技术介绍
目前,人机交互的方法包括触摸屏操作、鼠标操作、语音控制等。目前,随着智能控制技术的发展,一种综合人脸、脸部表情、语音、语音情感等因素的人机交互手段将更能给用户一种便捷、人性化的操作体验。如中国专利申请200810169232. 4(人机交互方法及系统)公开了一种人机交互方法及系统,将人机交互的过程划分成不同的对话状态,每个对话状态分别对应一个处理过程;该方法包括根据用户输入的即时上下文信息,获得反映所述用户需求的特征信息;至少根据所述特征信息和领域知识,确定当前与所述用户需求匹配的对话状态;调用并执行与所述确定的对话状态对应的处理过程,并将所述处理过程的处理结果返回给用户。该专利技术,以匹配用户需求,实现个性化的、拟人体验的人机交互过程,从而提高用户体验性,但没有考虑并综合人脸、脸部表情、语音、语音情感等因素;中国专利申请200910061752.8(—种人机交互平台)提供了一种人机交互平台,该平台包括绘图引擎,用于显示图形、文字;语音引擎,用于合成语音,进行播报;图像识别引擎,用于识别用户输入图形的样式,触发不同的功能;跨平台模块,用于实现跨平台功能;人机交互模块,用于显示人机界面;人机交互模块通过接口,经绘图引擎连接跨平台模块;图像识别引擎、语音引擎通过接口相连,并且分别通过接口连接跨平台模块;上述各模块均安装在人机交互硬件设备上,跨平台模块还与操作系统相交互。该专利技术综合了图形、文字、语音因素,但没就如何处理人脸、脸部表情、语音、语音情感等因素并获得操作指令提出解决方案。
技术实现思路
本专利技术的目的就提出一种综合考虑人脸、脸部表情、语音、语音情感因素,并对其代表的操作指令进行识别的人机交互识别装置,该人机交互识别装置可以集成在提供网络信息服务的服务系统或其客户端,为用户提供一种全新的操作体验方法。下面对本专利技术方案做进一步描述一种应用于远程信息服务的人机交互识别系统,其特征在于,提供网络信息服务的服务系统或其客户端至少具有一个人机交互识别装置;所述的人机交互识别装置包括听觉采集模块,用于采集用户的语音信号;视觉采集模块,用于采集用户的人脸图像;第一预处理模块,用于对视觉采集模块采集的图像进行预处理;人脸特征提取模块,用于通过对第一预处理模块的图像进行分析,实现对人脸整体或特征部位的识别、定位;人脸识别模块,用于根据人脸特征提取模块获得参数进行识别,输出人脸识别的结果;第二预处理模块,用于对听觉采集模块的语音信号进行预处理;语音特征提取模块,用于分析并获得语音参数;语音识别模块,用于根据语音特征提取模块获得的参数进行识别并获得该用户语音对应的请求或指令;第三预处理模块,用于对视觉采集模块采集的图像进行预处理,形成人脸表情图像序列;人脸表情特征提取模块,用于对第三预处理模块输入的图像序列进行分析处理,获得人脸表情参数;人脸表情识别模块,用于人脸表情参数进行处理、识别进而获得人脸表情的识别结果;第四预处理模块,用于对听觉采集模块的语音信号进行与语言情感相关的预处理;语言情感特征提取模块,用于从第四预处理模块输入的信号中获得语言情感特征的参数;语言情感识别模块,用于通过对语言情感特征的参数的分析处理,识别出该语音信号包含的情感信息并输出识别结果;显性识别融合模块,用于将人脸识别模块和语音识别模块的识别结果进行融合处理,形成综合了人脸特征和语音特征的识别结果;隐性识别融合模块,用于将人脸表情识别模块和语言情感识别模块的识别结果进行融合处理,形成综合了人脸表情特征和语音情感特征的识别结果。进一步,所述的人脸识别模块、语音识别模块、人脸识别模块、语音识别模块、显性识别融合模块和隐性识别融合模块所形成的识别结果均被转换成获取信息服务的操作指令;服务系统将根据该指令输出服务。更进一步优化,所述人机交互识别装置还具有一个综合交互模块,用于根据服务的类别,综合人脸识别模块、语音识别模块、人脸识别模块、语音识别模块、显性识别融合模块和隐性识别融合模块所形成一种或一种以上识别结果,经处理后形成与该服务的类别匹配的操作指令输出。上任一所述的人脸表情识别模块进行识别的工具包括自组织影射神经网络分类器、遗传算法分类器、K-邻近分类器、支持向量机分类器、模糊逻辑分类器、HMM分类器、马氏距离分类器。上任一所述的人脸表情特征提取模块的提取手段包括主元分析、小波变换。上任一所述的语音特征提取模块获得语音参数包括韵律、能量、基音均值、基音范围、语速、音强、呼吸声。上任一所述的显性识别融合模块、隐性识别融合模块和综合交互模块进行信息融合的技术手段包括统计模式识别法、多贝叶斯估计法、模糊逻辑法、神经网络法。综上所述的本专利技术具有如下显著特点或进步1.具有六路识别通道输出,分别是人脸识别结果、语音识别结果、人脸表情识别结果、语音情感识别结果、融合人脸和语音的显性识别结果、融合人脸表情和语音情感的隐性识别结果。2.综合交互模块可以根据服务种类对六路识别通道输出进行进一步处理,更符合不同业务需要;3.适合各种处理算法在系统的综合应用,发挥各自的优势。 附图说明图1是本专利技术系统的人机交互识别装置的结构示意图。具体实施例方式远程信息服务,是指远程的业务平台通过网络为用户提供远程功能服务。提供远程信息服务的方式可以包括用户直接登陆该业务平台获取,也可以通过本地的客户端与远程的业务平台的连接获取。应用于远程信息服务的人机交互识别系统,指采用具有人机交互识别功能,能对人的人脸、脸部表情、语音、语音情感进行识别以获取用户需求的远程信息服务系统。人机交互识别功能可以集成在远程的业务平台,也可以集成在客户端。显性信息,即提供识别说话人的人脸图像和唇读,语言传递说话内容等信息;隐性消息,即传送有关当事人本身的心理活动;包括人类语言中包含有丰富的情感,情感的特征通过语言的韵律的变化而表现出来,不同情感在时间构造、振幅构造和基频构造等特征上都有不同程度的差别;人脸表情十分丰富,通常能提供人的思维信息,人的心理状态或多或少都会显现在人脸上。目前,单独对显性信息和隐性消息某一因素的识别已经产生了各种算法,但没有就如何综合多种因素提高判定的准确度和更适应多变的业务操作需要提出整体的解决方案。下面将结合附图,对本专利技术方案做进一步描述如图1所示,本专利技术的系统至少具有一个人机交互识别装置。该装置由听觉采集模块、视觉采集模块、第一预处理模块、人脸特征提取模块、人脸识别模块、第二预处理模块、语音特征提取模块、语音识别模块、第三预处理模块、人脸表情特征提取模块、人脸表情识别模块、第四预处理模块、语言情感特征提取模块、语言情感识别模块、显性识别融合模块、隐性识别融合模块和综合交互模块等组成。各模块之间的作用及关系为听觉采集模块用于采集用户的语音信号;视觉采集模块用于采集用户的人脸图像;第一预处理模块用于对视觉采集模块采集的图像进行预处理;人脸特征提取模块用于通过对第一预处理模块的图像进行分析,实现对人脸整体或特征部位的识别、定位;人脸识别模块用于根据人脸特征提取模块获得参数进行识别,输出人脸识别的结果,形成的识别结果被转换成获取信息服务的操作指令;服务系统将根据该指令输出服务;本文档来自技高网
...

【技术保护点】
1.一种应用于远程信息服务的人机交互识别系统,其特征在于,提供网络信息服务的服务系统或其客户端至少具有一个人机交互识别装置;所述的人机交互识别装置包括:听觉采集模块,用于采集用户的语音信号;视觉采集模块,用于采集用户的人脸图像;第一预处理模块,用于对视觉采集模块采集的图像进行预处理;人脸特征提取模块,用于通过对第一预处理模块的图像进行分析,实现对人脸整体或特征部位的识别、定位;人脸识别模块,用于根据人脸特征提取模块获得参数进行识别,输出人脸识别的结果;第二预处理模块,用于对听觉采集模块的语音信号进行预处理;语音特征提取模块,用于分析并获得语音参数;语音识别模块,用于根据语音特征提取模块获得的参数进行识别并获得该用户语音对应的请求或指令;第三预处理模块,用于对视觉采集模块采集的图像进行预处理,形成人脸表情图像序列;人脸表情特征提取模块,用于对第三预处理模块输入的图像序列进行分析处理,获得人脸表情参数;人脸表情识别模块,用于人脸表情参数进行处理、识别进而获得人脸表情的识别结果;第四预处理模块,用于对听觉采集模块的语音信号进行与语言情感相关的预处理;语言情感特征提取模块,用于从第四预处理模块输入的信号中获得语言情感特征的参数;语言情感识别模块,用于通过对语言情感特征的参数的分析处理,识别出该语音信号包含的情感信息并输出识别结果;显性识别融合模块,用于将人脸识别模块和语音识别模块的识别结果进行融合处理,形成综合了人脸特征和语音特征的识别结果;隐性识别融合模块,用于将人脸表情识别模块和语言情感识别模块的识别结果进行融合处理,形成综合了人脸表情特征和语音情感特征的识别结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:卢忠云黄家祺卢林发叶灿才
申请(专利权)人:广东爱科数字科技有限公司
类型:发明
国别省市:81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1