一种基于DIVA神经网络模型的语音生成方法技术

技术编号:7996435 阅读:231 留言:0更新日期:2012-11-22 05:14
本发明专利技术公开了一种基于DIVA神经网络模型的语音生产方法,包括语音样本提取、语音样本分类与学习、语音输出和修正输出语音,所述语音样本分类与学习采用自适应生长型神经网络(AGNN)实现对语音样本的分类学习,利用获取的语音共振峰频率来进一步计算输入层候选神经元的数目,再根据输入层候选神经元来确定隐层神经元,最终获得AGNN的输出值,并根据输出值来确定音素,采用上述结构的神经网络训练精度高且学习速度快。

【技术实现步骤摘要】

本专利技术涉及一种语音生成方法,特别是一种基于DIVA神经网络模型的语音生成方法
技术介绍
随着人工智能的发展,人们对这个领域的研究不断深入。对类似真人发音的语音生成和获取的控制,是机器人发音系统急需解决的问题。语音生成与获取是一个涉及大脑诸多部位复杂的认知过程,这个过程包括一种从依照句法和语法 组织句子或短语的表述一直延伸到音素产生的分层结构,需要根据发声时大脑中各种感官和运动区域的交互作用建立相应的神经网络模型。目前 DIVA (Directions Into Velocities of Articulators)模型就是一种关于语音生成与获取后描述相关处理过程的数学模型,主要被用来仿真和描述有关大脑中涉及语音生成和语音理解区域的相关功能。也可以说它是一种为了生成单词、音节或者音素,而用来控制模拟声道运动的自适应神经网络模型。在当今真正具有生物学意义的语音生成和获取的神经网络模型中,DIVA模型的定义和测试相对而言是最彻底的,并且是唯一一种应用伪逆控制方案的模型。人们对于人类语言能力的统一计算模型的需求推动着DIVA模型的发展。这个模型自从由MIT大学语音实验室的Guentherl994年首次提出以来,近些年来不断地被更新、完善和改进。DIVA系统由语音通道模块、耳蜗模块、听觉皮层模型模块、听觉皮层类别感知模块、语音细胞集模块、运动皮层模块、声道模块、体觉皮质模块、感觉模块和感觉通道模块组成。通过对DIVA模型的分析,我们可以发现其听觉皮层类别感知模块中所使用的分类方法是RBF。而RBF神经网络对样本的依赖性很大,对于某一具体的研究问题,如何确定合适的隐含层节点数,目前尚无通用有效的算法或者定理。人们更多的是凭借经验,反复试验来确定网络的规模,这种试凑的方法非常繁琐,不易找到合适的结构。网络隐含层的节点数对网络的收敛速度、精度及泛化能力都有很大的影响。隐含层节点过多,虽可以完成训练,但会影响收敛速度,而且有可能出现过学习;而隐含层节点过少,网络不能充分学习,达不到训练精度的要求。此外,RBF神经网络训练的时间也不够快。
技术实现思路
本专利技术的目的在于提供一种发音精度高、学习速度快的基于DIVA神经网络模型的语音生成方法。实现本专利技术目的的技术解决方案为一种基于DIVA神经网络模型的语音生成方法,包括语音样本提取、语音样本分类与学习、语音输出和修正输出语音,所述语音样本分类与学习采用自适应生长型神经网络(AGNN)实现对语音样本的分类学习,具体为步骤一、将提取的语音共振峰频率通过雅克比行列式转换为矩阵形式,该矩阵的特征向量的维数即输入层候选神经元的数目m ;计算输入层候选神经元的适应度函数值并按适应度函数值递增的顺序排列候选神经元,输入层候选神经元适应度函数值的列表相应的为S= {Sn ≤Si2 ≤...≤SiJ ,并按相应的顺序将候选神经元放在列表X中,X= (X1,. . . ,Xm),所述适应度函数计算公式为权利要求1.一种基于DIVA神经网络模型的语音生成方法,包括语音样本提取、语音样本分类与学习、语音输出和修正输出语音,其特征在于,所述语音样本分类与学习采用自适应生长型神经网络(AGNN)实现对语音样本的分类学习,具体为 步骤一、将提取的语音共振峰频率通过雅克比行列式转换为矩阵形式,该矩阵的特征向量的维数即输入层候选神经元的数目m ;计算输入层候选神经元的适应度函数值并按适应度函数值递增的顺序排列候选神经元,输入层候选神经元适应度函数值的列表相应的为S= {Sn ≤ Si2 ≤…≤SiJ ,并按相应的顺序将候选神经元放在列表X中,X= (X1,…,Xm),所述适应度函数计算公式为2.根据权利要求I所述的基于DIVA神经网络模型的语音生成方法,其特征在于 步骤六中训练此隐层候选神经元并计算它的适应度函数值C;,具体为 (1)将语音共振峰频率归一化所形成的数据集划分为训练集、验证集和测试集,这里划分的训练集和验证集的样本数目分别为nA,nB,划分依据为nA=nB ;(2)根据划分后的三个集合,利用下述公式计算隐层候选神经元的适应度函数值C;,3.根据权利要求I所述的基于DIVA神经网络模型的语音生成方法,其特征在于 所述步骤八中根据输出层的输出数值来确定音素,具体为所述输出层的输出数值为O至I区间的数值,并根据DIVA神经网络模型中每个音素所对应的范围值来确定AGNN神经网络输出数值所对应的音素。全文摘要本专利技术公开了一种基于DIVA神经网络模型的语音生产方法,包括语音样本提取、语音样本分类与学习、语音输出和修正输出语音,所述语音样本分类与学习采用自适应生长型神经网络(AGNN)实现对语音样本的分类学习,利用获取的语音共振峰频率来进一步计算输入层候选神经元的数目,再根据输入层候选神经元来确定隐层神经元,最终获得AGNN的输出值,并根据输出值来确定音素,采用上述结构的神经网络训练精度高且学习速度快。文档编号G06N3/08GK102789594SQ201210219670公开日2012年11月21日 申请日期2012年6月28日 优先权日2012年6月28日专利技术者刘欣, 张少白, 徐磊 申请人:南京邮电大学本文档来自技高网
...

【技术保护点】
一种基于DIVA神经网络模型的语音生成方法,包括语音样本提取、语音样本分类与学习、语音输出和修正输出语音,其特征在于,所述语音样本分类与学习采用自适应生长型神经网络(AGNN)实现对语音样本的分类学习,具体为:步骤一、将提取的语音共振峰频率通过雅克比行列式转换为矩阵形式,该矩阵的特征向量的维数即输入层候选神经元的数目m;计算输入层候选神经元的适应度函数值并按适应度函数值递增的顺序排列候选神经元,输入层候选神经元适应度函数值的列表相应的为S={Si1≤Si2≤…≤Sim},并按相应的顺序将候选神经元放在列表X中,X=(x1,…,xm),所述适应度函数计算公式为:yi为实际输出值,为目标值,n为数据集中样本的数目且n为自然数;步骤二、初始隐层神经元个数r=0并设C0=Si1,C0为隐层神经元个数r=0时的适应度函数值;步骤三、设r=r+1和p=r+1,其中r为第r个隐层候选神经元,生成一个有p个输入的隐层候选神经元;步骤四、若r>1,将该隐层候选神经元分别连接到其前面所有的隐层神经元和输入节点x1上;否则把该隐层候选神经元只连接到输入节点x1上;步骤五、设置下一个需要和新添加的隐层候选神经元相连接的集合X中的元素所处的位置h的初始值为2,其中2≤h≤m,m、h为正整数;将此隐层候选神经元的第P个输入连接到列表X中位置为h的输入节点上;步骤六、训练此隐层候选神经元并计算它的适应度函数值Cr,若Cr≥Cr?1,则执行步骤七;若Cr...

【技术特征摘要】

【专利技术属性】
技术研发人员:张少白徐磊刘欣
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1