一种基于面部表情分析的语音识别方法技术

技术编号:24097314 阅读:36 留言:0更新日期:2020-05-09 11:02
本发明专利技术提供一种基于面部表情分析的语音识别方法,包括:通过表情采集装置和语音采集装置同时采集语音和表情数据,对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果,在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果,在最终的表情识别结果的条件下,从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。本发明专利技术提供的技术方案,在对用户语音识别的同时也采集用户的表情数据,通过对用户的表情数据和用户语音数据进行识别,利用用户表情识别的结果来校正用户语音的识别结果,使识别结果更加准确。

A speech recognition method based on facial expression analysis

【技术实现步骤摘要】
一种基于面部表情分析的语音识别方法
本专利技术涉及文字识别领域,尤其涉及一种基于面部表情识别的语音识别方法。
技术介绍
伴随着科学技术的进步,信息技术的高速发展给世界带来了巨大的冲击,也在悄无声息中改变着人们的生活方式和生活习惯。人类的情感表现是我们作为一个真实存在的人所应该具备的。1971年,美国心理学家Ekman和Friesen首次提出六种基本情感:生气、伤心、高兴、害怕、厌恶和惊奇。人与人之间的交往沟通中,往往可以通过人的声音、脸部表情、身体姿态等外在信息进行情感交流。语音作为声学的表述方式,通过直接的思想和情感交流去表达自我而成为人们关注的研究对象。语音识别主要是指能够让机器听懂人所说的话,即在特定或非特定环境下准确识别出语音的内容,并根据识别出的内容去执行相应的操作。语音识别在人机交互中有着非常广泛的应用,比如车载导航、智能家庭等。在人机交互的过程中,往往都是通过将语音转化为文字,然后通过文字输入后,机器根据识别的文字进行相应的答复。但是,由于人类的语音比较丰富,相同的文字如果带有不同的语气和语调可能表达说话者不同的意思,此时,对于语音识别来讲,往往都是识别出同样的结果。因此,为了解决该问题,本专利技术提出一种基于面部表情分析的语音识别方法,以提高语音识别的准确度。
技术实现思路
基于现有技术中存在的缺陷,本专利技术提供了一种基于面部表情识别的语音识别方法,包括:步骤S1,通过表情采集装置和语音采集装置同时采集语音和表情数据;步骤S2,对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果;步骤S3,在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果,在最终的表情识别结果的条件下,从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。一种基于面部表情识别的语音识别方法,进一步地,所述步骤S2中,语音数据分析处理包括以下步骤:步骤S21,对采集的语音信号进行语音预处理,语音预处理包括预加重、语音活动性检测、分帧加窗;步骤S22,对语音信号进行端点检测,端点检测用于检测音频信号当中的语音出现和语音消失的时间点;步骤S23,语音特征参数提取包括梅尔频率倒谱频带。一种基于面部表情识别的语音识别方法,进一步地,所述预加重包括:在语音取样后,加入一阶的高通滤波器;所述语音活动性检测包括利用语音信号的自相关函数和噪音信号的自相关函数的峰值差异,将背景噪音和语音进行区分并分离出语音;所述分帧加窗包括:将语音信号分成利用预设长度的序列取出相应时段的语音分部处理,通过对可移动的有限长度的窗口进行加权来实现;分帧时相邻帧之间具有重叠部分,定义前一帧与后一帧的重叠部分称为帧移,帧移与帧长的比值为0~0.3。一种基于面部表情识别的语音识别方法,进一步地,语音端点检测包括:从每一帧数据当中提取特征,提取的特征包括帧能量、过零率;在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,对未知的分帧数据进行分类,判断其属于语音信号还是静默信号,用来区分语音的开始点和结束点。一种基于面部表情识别的语音识别方法,进一步地,梅尔频率倒谱频带的提取过程包括:对每一帧进行FFT变换,求频谱,进而求得幅度谱,对幅度谱加Mel滤波器组,对所有的滤波器输出做对数运算,再进一步做离散余弦变换,保留离散余弦变换的前2-13个系数作为MFCC的特征参数。一种基于面部表情识别的语音识别方法,进一步地,所述步骤S2中,语音数据分析处理还包括以下步骤:步骤S24,对获取的MFCC参数进行分段降维处理;步骤S25,对识别的语音进行语音特征处理,获取识别语音与单个模板语音的匹配值;步骤S26,分别计算识别语音与所有模板的匹配值,然后将计算出的匹配值从小到大进行排序,以匹配值排行前V个模板语音作为识别结果输出。一种基于面部表情识别的语音识别方法,进一步地,步骤S24中,分段降维处理包括:步骤S241,通过语音特征提取后的MFCC特征参数,组成2u列矩阵;步骤S242,对2u列矩阵按照行进行均等分段,分段数量为2u段,每段的矩阵列数为2u列,对2u个段矩阵进行K均值聚类,聚为1类,每个段形成1*2u的行向量;步骤S243,针对同一个人多次发同一个语音的其它语音重复S241至S242,对计算得到的每个模板的相同段进行K均值聚类并聚为1类;步骤S244,将获得2u个行向量按照行依次排列,形成一个2u*2u的矩阵。一种基于面部表情识别的语音识别方法,进一步地,所述步骤S2中,表情数据的分析处理包括以下步骤:步骤S2-1对输入的图像进行预处理人脸检测旋转校正生成灰度图;步骤S2-3,通过LBP算子和梯度算法分别对图像进行处理获得LBP图像和梯度图像,然后利用上通道卷积网络分别从LBP图像和梯度图像提取特征;步骤S2-4,通过加权融合的方式构造特征融合网络,通过设置加权系统β对梯度特征和LBP特征进行加权求和得到双通道输出特征;fw=βfx+(1-β)fyfw为融合后得到的特征;fx为图像的梯度特征;fy为图像的LBP特征。步骤S2-5,用Softmax分类器对表情种类进行分类并获取识别结果。一种基于面部表情识别的语音识别方法,进一步地,在步骤S2-1之后和步骤S2-3之前,还包括:步骤S2-2,对生成灰度图进行细节特征增强,所述细节特征增强包括以原始灰度图像为基础,选取灰度图像相邻的上采样图像和下采样图像,与灰度图像形成多层金字塔;对多层金字塔的每层图像做多次不同的高斯平滑,分别得到每层金字塔的多层高斯平滑处理图像,然后针对每一层金字塔图像,以原始图像作为第零层图像,分别与多层高斯平滑处理后的图像进行相减获得DoG图像;将每层金字塔的图像与该层图像形成的多层DoG进行像素叠加。一种基于面部表情识别的语音识别方法,进一步地,所述步骤S3中,表情识别结果的概率的计算过程包括:步骤S31,在预设语音时间内,根据表情图片的提取特征判断图片判断表情图片的种类,计算公式为:上式中,语音时长为t1,在该时间段内的图像共有n张,Ni表示第i图像,Mj表示第j种表情状态,W(Ni,Mj)用来表示第i张图像在经过Softmax分类器进行分类后是否属于第j种表情状态,当第i张表情图像是属于第j种表情状态时,则W(Ni,Mj)的取值为1,否则取0;步骤S32,计算语音时长内,相同种类的表情的图片数与占据总的图片数的比例并获取比例值,将该比例值定义为表情概率,计算公式如下:则语音时长为t1中,第j种的表情概率定义为Pj:上式中,表示对经过Softmax分类器后归属于第j种表情的所有图像的统计,n为时间t内的总的图像数。步骤S33,以此类推,分别求出在语音时间t1内的不同种类表情概率,然后按照概率从大到小排序,以最大值的表情作为在语音本文档来自技高网...

【技术保护点】
1.一种基于面部表情分析的语音识别方法,其特征在于,包括:步骤S1,通过表情采集装置和语音采集装置同时采集语音和表情数据;/n步骤S2,对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果;/n步骤S3,在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果,在最终的表情识别结果的条件下,从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。/n

【技术特征摘要】
1.一种基于面部表情分析的语音识别方法,其特征在于,包括:步骤S1,通过表情采集装置和语音采集装置同时采集语音和表情数据;
步骤S2,对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果;
步骤S3,在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果,在最终的表情识别结果的条件下,从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。


2.如权利要求1所述的一种基于面部表情分析的语音识别方法,其特征在于,所述步骤S2中,语音数据分析处理包括以下步骤:
步骤S21,对采集的语音信号进行语音预处理,语音预处理包括预加重、语音活动性检测、分帧加窗;
步骤S22,对语音信号进行端点检测,端点检测用于检测音频信号当中的语音出现和语音消失的时间点;
步骤S23,语音特征参数提取包括梅尔频率倒谱频带。


3.如权利要求2所述的一种基于面部表情分析的语音识别方法,其特征在于,所述预加重包括:在语音取样后,加入一阶的高通滤波器;
所述语音活动性检测包括利用语音信号的自相关函数和噪音信号的自相关函数的峰值差异,将背景噪音和语音进行区分并分离出语音;
所述分帧加窗包括:将语音信号分成利用预设长度的序列取出相应时段的语音分部处理,通过对可移动的有限长度的窗口进行加权来实现;
分帧时相邻帧之间具有重叠部分,定义前一帧与后一帧的重叠部分称为帧移,帧移与帧长的比值为0~0.3。


4.如权利要求3所述的一种基于面部表情分析的语音识别方法,其特征在于,语音端点检测包括:从每一帧数据当中提取特征,提取的特征包括帧能量、过零率;在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,对未知的分帧数据进行分类,判断其属于语音信号还是静默信号,用来区分语音的开始点和结束点。


5.如权利要求2所述的一种基于面部表情分析的语音识别方法,其特征在于,梅尔频率倒谱频带的提取过程包括:对每一帧进行FFT变换,求频谱,进而求得幅度谱,对幅度谱加Mel滤波器组,对所有的滤波器输出做对数运算,再进一步做离散余弦变换,保留离散余弦变换的前2-13个系数作为MFCC的特征参数。


6.如权利要求2所述的一种基于面部表情分析的语音识别方法,其特征在于,所述步骤S2中,语音数据分析处理还包括以下步骤:
步骤S24,对获取的MFCC参数进行分段降维处理;
步骤S25,对识别的语音进行语音特征处理,获取识别语音与单个模板语音的匹配值;
步骤S26,分别计算识别语音与所有模板的匹配值,然后将计算出的匹配值从小到大进行排序,以匹配值排行前V个模板语音作为识别结果输出。


7.如权利要求6所述的一种基于面部表情分析的语音识别方法,其特征在于,步骤S24中,分段降维处理包括:
步骤S241,通过语音特征提取后的MFCC特征参数,组成2u列矩阵;
步骤S242,对2u列矩阵按照行进行均等分段,分段数量为2u段,每段的矩阵列数为2u列,对2u个段矩阵进行K均值聚类,聚为1类,每个段形成1*2u的行向量;
步骤S243,针对同一个人多次发同一个语音的其它语音重复S241至S242,对计算得到的每个模板的相同段进行K均值聚类并聚为1类;
步骤S244,将获得2u个行向量按照行依次排列,形成一个2u*2u的矩阵。


8.如权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:肖文平刘杰张航
申请(专利权)人:上海赫千电子科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1