【技术实现步骤摘要】
基于匹配模型二次识别的语音识别方法及系统
本专利技术属于人机语音交互
,特别是一种识别准确度高、用户体验好的基于匹配模型二次识别的语音识别方法及实现该方法的系统。
技术介绍
语音识别是理想的人机交互中介工具,是推动机器向更智能化发展的重要技术。能听懂人讲话,可以进行思考和理解人的意图,并最终对人作出语音或者行动上的响应的智能化机器一直是人工智能的终极目标之一。在大数据的背景下,机器学习逐渐渗透到智能家居、车载语音、身份识别等领域。基于大数据的深度学习研究方法对语音识别系统性能的提升有重要意义。早在几年前就有国外学者提出了关于将深度学习研究方法运用在语音识别上(GeoffreyHinton,LiDeng,DongYu.Deepneuralnetworksforacousticmodelinginspeechrecognition)。但是通过调整模型结构以及参数来提升语音识别系统准确率的方法,在实际用户语音噪声背景不匹配时会导致语音识别准确率急剧下降,严重影响人机交互体验。
技术实现思路
本专利技术的目的在于提供一种基于匹配模型二次识别的语音识别方法,识别准确度高、 ...
【技术保护点】
一种基于匹配模型二次识别的语音识别方法,其特征在于,包括如下步骤:(10)语音处理:对用户输入的语音进行预处理及特征提取;(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;(30)用户评价:接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
【技术特征摘要】
1.一种基于匹配模型二次识别的语音识别方法,其特征在于,包括如下步骤:(10)语音处理:对用户输入的语音进行预处理及特征提取;(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;(30)用户评价:接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述(20)语音识别步骤中,识别解析用户的语音信息步骤包括:(211)提取用户输入语音的梅尔域倒谱系数作为声学特征;(212)将输入语音的特征向量输入到已经在训练样本集上训练完成的声学模型中,解码得到输入语音的音素成分。(213)用户输入语音的音素组成信息被输入到解码器中,解码器综合训练集的发音词典以及语言模型,给用户输入语音一个最优词序列作为最终的识别解析结果。3.根据权利要求1所述的语音识别方法,其特征在于,所述(20)语音识别步骤中,用户性别提取步骤包括:(221)模型训练:采用最大似然准则在足量的数据样本上训练高斯混合模型;(222)语音特征提取:提取用户输入语音的语音特征,其总体变量空间在UBM上的超级矢量M表示如下,M=m+Tx+e其中,M是特定输入语句的超级矢量,m是样本数据的均值超级矢量,x是符合正态分布的低维随机矢量,T是描述总体变化的矩阵,e是由噪声或其他非相关因素产生的残差,GMM为高斯混合模型,UBM为统一背景模型;在已知UBM-GMM模型的参数为Ω时,i-vector可以由上式得到,从而解决如下问题:(223)根据样本数据的Baum-Welch统计量γk(i)和Γy,k(i),公式如下:可以得到i-vector的提取公式:(224)特征向量估计:根据i-vector的提取公式,可以利用EM算法来估计实际特征向量。(225)用户性别分析:将提取得到的用户i-vector特征用线性投影分析(LDA)方法投影在由500名男性500名女性构成的散布平面上,由此分析出用户性别。4.根据权利要求3所述的语音识别方法,其特征在于,所述(224)特征向量估计步骤包括:(2241)初始化:在训练样本中随机地选取T,设定T中每个成分的初始值,对于每个训练的语音片段计算其相应的Baum-Welch统计量。(2242)设定E值:对于每个训练的语音片段用充足的数据和当前对T的估计,计算ω(i)的期望值,计算的方法如下:E[ω(i)]=I-...
【专利技术属性】
技术研发人员:赵兆,何云亚,许志勇,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。