一种基于面部表情分析的语音识别方法技术

技术编号：24097314 阅读：62 留言：0更新日期：2020-05-09 11:02

本发明专利技术提供一种基于面部表情分析的语音识别方法，包括：通过表情采集装置和语音采集装置同时采集语音和表情数据，对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果，在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果，在最终的表情识别结果的条件下，从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。本发明专利技术提供的技术方案，在对用户语音识别的同时也采集用户的表情数据，通过对用户的表情数据和用户语音数据进行识别，利用用户表情识别的结果来校正用户语音的识别结果，使识别结果更加准确。

A speech recognition method based on facial expression analysis

全部详细技术资料下载

【技术实现步骤摘要】
一种基于面部表情分析的语音识别方法
本专利技术涉及文字识别领域，尤其涉及一种基于面部表情识别的语音识别方法。
技术介绍
伴随着科学技术的进步，信息技术的高速发展给世界带来了巨大的冲击，也在悄无声息中改变着人们的生活方式和生活习惯。人类的情感表现是我们作为一个真实存在的人所应该具备的。1971年，美国心理学家Ekman和Friesen首次提出六种基本情感：生气、伤心、高兴、害怕、厌恶和惊奇。人与人之间的交往沟通中，往往可以通过人的声音、脸部表情、身体姿态等外在信息进行情感交流。语音作为声学的表述方式，通过直接的思想和情感交流去表达自我而成为人们关注的研究对象。语音识别主要是指能够让机器听懂人所说的话，即在特定或非特定环境下准确识别出语音的内容，并根据识别出的内容去执行相应的操作。语音识别在人机交互中有着非常广泛的应用，比如车载导航、智能家庭等。在人机交互的过程中，往往都是通过将语音转化为文字，然后通过文字输入后，机器根据识别的文字进行相应的答复。但是，由于人类的语音比较丰富，相同的文字如果带有不同的语气和语调可能表达说话者不同...

【技术保护点】
1.一种基于面部表情分析的语音识别方法，其特征在于，包括：步骤S1，通过表情采集装置和语音采集装置同时采集语音和表情数据；/n步骤S2，对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果；/n步骤S3，在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果，在最终的表情识别结果的条件下，从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。/n

【技术特征摘要】
1.一种基于面部表情分析的语音识别方法，其特征在于，包括：步骤S1，通过表情采集装置和语音采集装置同时采集语音和表情数据；
步骤S2，对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果；
步骤S3，在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果，在最终的表情识别结果的条件下，从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。

2.如权利要求1所述的一种基于面部表情分析的语音识别方法，其特征在于，所述步骤S2中，语音数据分析处理包括以下步骤：
步骤S21，对采集的语音信号进行语音预处理，语音预处理包括预加重、语音活动性检测、分帧加窗；
步骤S22，对语音信号进行端点检测，端点检测用于检测音频信号当中的语音出现和语音消失的时间点；
步骤S23，语音特征参数提取包括梅尔频率倒谱频带。

3.如权利要求2所述的一种基于面部表情分析的语音识别方法，其特征在于，所述预加重包括：在语音取样后，加入一阶的高通滤波器；
所述语音活动性检测包括利用语音信号的自相关函数和噪音信号的自相关函数的峰值差异，将背景噪音和语音进行区分并分离出语音；
所述分帧加窗包括：将语音信号分成利用预设长度的序列取出相应时段的语音分部处理，通过对可移动的有限长度的窗口进行加权来实现；
分帧时相邻帧之间具有重叠部分，定义前一帧与后一帧的重叠部分称为帧移，帧移与帧长的比值为0～0.3。

4.如权利要求3所述的一种基于面部表情分析的语音识别方法，其特征在于，语音端点检测包括：从每一帧数据当中提取特征，提取的特征包括帧能量、过零率；在一个已知语音和静默信号区域的数据帧集合上训练一个分类器，对未知的分帧数据进行分类，判断其属于语音信号还是静默信号，用来区分语音的开始点和结束点。

5.如权利要求2所述的一种基于面部表情分析的语音识别方法，其特征在于，梅尔频率倒谱频带的提取过程包括：对每一帧进行FFT变换，求频谱，进而求得幅度谱，对幅度谱加Mel滤波器组，对所有的滤波器输出做对数运算，再进一步做离散余弦变换，保留离散余弦变换的前2-13个系数作为MFCC的特征参数。

6.如权利要求2所述的一种基于面部表情分析的语音识别方法，其特征在于，所述步骤S2中，语音数据分析处理还包括以下步骤：
步骤S24，对获取的MFCC参数进行分段降维处理；
步骤S25，对识别的语音进行语音特征处理，获取识别语音与单个模板语音的匹配值；
步骤S26，分别计算识别语音与所有模板的匹配值，然后将计算出的匹配值从小到大进行排序，以匹配值排行前V个模板语音作为识别结果输出。

7.如权利要求6所述的一种基于面部表情分析的语音识别方法，其特征在于，步骤S24中，分段降维处理包括：
步骤S241，通过语音特征提取后的MFCC特征参数，组成2u列矩阵；
步骤S242，对2u列矩阵按照行进行均等分段，分段数量为2u段，每段的矩阵列数为2u列，对2u个段矩阵进行K均值聚类，聚为1类，每个段形成1*2u的行向量；
步骤S243，针对同一个人多次发同一个语音的其它语音重复S241至S242，对计算得到的每个模板的相同段进行K均值聚类并聚为1类；
步骤S244，将获得2u个行向量按照行依次排列，形成一个2u*2u的矩阵。

8.如权利要求1所述的一种基于...

【专利技术属性】
技术研发人员：肖文平，刘杰，张航，
申请(专利权)人：上海赫千电子科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人