一种基于DIVA神经网络模型的汉语元音发音方法技术

技术编号:8215908 阅读:299 留言:0更新日期:2013-01-17 15:50
本发明专利技术公开了一种基于DIVA神经网络模型的汉语元音发音方法,利用DIVA神经网络模型对汉语元音目标进行分类学习训练并产生汉语元音发音,利用主元音方法建立汉语元音音素单元集,并将汉语元音音素单元集中的音素转换为共振峰频率的形式后映射到DIVA神经网络模型中,再随机输入汉语元音,对该汉语元音进行训练和学习,直到所有的汉语元音都被学习过为止,最后通过扬声器将汉语元音输出。该方法训练过程中精度高,最终实现模拟人体发出汉语元音。

【技术实现步骤摘要】

本专利技术涉及一种发音方法,更具体地说是一种基于DIVA神经网络模型的汉语元音发音方法
技术介绍
将大脑中的思维过程“阅读〃出来,这一直是人类的一个梦想。波士顿大学语音实验室的弗兰克·冈瑟教授(Guenther. F. H.)提出的DIVA自适应神经网络模型帮助人们实现了这一梦想。他专利技术的DIVA模型依赖的语音背景是英文的29个基本音素,图5中 给出了 DIVA模型依赖的29个英文音素。对于以汉语为母语的中国人来讲,要“阅读”其思维过程,需要对汉语语音加工过程中的大脑机制进行深入研究和讨论。DIVA (Directions Intoof Articulators)模型是一种关于语音生成与获取后描述相关处理过程的数学模型,主要用来仿真和描述有关大脑中涉及语音生成和语音理解区域的相关功能。可以说,它是一种为了生成单词、音节或音素,用来控制模拟声道运动的自适应神经网络模型。该网络模型在计算机中学习控制模拟声道的运动,以产生相应的语音。学习完成之后,模型能够产生语音的任意组合。DIVA网络模型为许多长期研究的语音生成现象包括运动等效、语境变化、说话时速度的影响、预期的协同发音和结转协同发音提供了一个统一的解释。对于人类语言能力统一计算模型的需求推动着DIVA模型的发展,自冈瑟教授在1994年首次提出DIVA网络模型以来涌现出了不少新的版本,不同版本的DIVA模型大致地反映了神经解剖学和大脑有关区域的关联性。到目前为止,DIVA网络的定义和测试相对而言仍然是最彻底的,并且是唯一应用伪逆控制方案的模型,这种控制方案对于人类发音器官的运动学数据提供了十分精确的解释。要让DIVA模型“读懂”中文发音者的思想,让说汉语的人能将其思维过程用人工语音合成系统自然的表述出来,需要建立正确的映射关系,这涉及到两方面的知识 (1)汉语发音的脑机制研究和脑区成像研究; (2)DIVA网络模型对成像结果的再利用。DIVA模型的语言基础是英文的29个基本音素。对于母语为汉语的中国人来说DIVA模型是否也能完成中文语音生成和获取的任务呢?汉语是一门有语调的语言,它不像英语的语音识别是通过仅凭音节的识别就能获得很好的识别结果。对于汉语的识别,音调和韵律起着非常重要的作用。相同的音节不同的音调也会导致识别为不同的汉字。语音加工是语言认知的核心功能,其脑机制是当前研究者关心的重要问题,有关语音加工脑机制的研究,既包括听觉通道中语音加工的脑机制,也包括视觉通道中语音加工的脑机制。这个过程涉及到不同语言持有者在说话的时候,其发音过程对大脑皮层中布洛卡(Broca)区以及相关区域的不同影响。一系列的实验结果发现左侧颞上回后部的威尔尼克区与语音理解有关,左侧额下回的布洛卡区与语音产生有关。有多个脑区参与了听觉和视觉通道中的语音加工过程,包括左侧额下回、左侧颞上回、左侧顶下小叶、以及左侧颞顶枕联合区等脑区;而且某些脑区的功能似乎并不单一,例如左侧额下回既负责语音复述又负责语音的短时储存。各脑区在功能上不是孤立的,而是相互联系与影响,构成一个神经网络共同负责语音加工的过程。如果将DIVA模型应用到中文发音的语音合成任务中,就要对其已有的英文因素一脑区映射关系进行重新考虑和修改,找到适合中文一脑区的映射关系。其中最重要的一个步骤就是汉语语音建模的问题。过去的几十年里,在中文语音识别系统中,研究人员分别考虑用过不同粒度的建模单元,这其中包括词(word)、音节(syllable)、声韵母(initial/final, IF)、音素(phoneme)等。以词或者音节为粒度去构建建模单元集,往往会造成建模单元数目过于庞大,从而出现训练数据稀疏的问题,导致模型参数得不到充分而准确的估计,而且还会使解码的搜索空间增大,大大降低解码效率,因此一般只适合用在一些小词汇量的中文识别系统(如命令词或者数字串识别系统)中。以声韵母构建建模单元集,在一定程度上反映了中文语音学的知识和特点,并且·被成功地用于搭建大词汇量连续语音识别系统,也是目前被广泛认可的建模单元集。但是与英文音素建模单元集相比,声韵母建模单元集的建模单元数目还是比较多,特别是在带调的情况下。鉴于音素建模单元集已在英文系统中被广泛应用,并且取得了良好的性能,近年来有许多研究机构也倾向于在中文大词汇量连续语音识别系统中使用以拼音音素为粒度构建的建模单元集。虽然音素没有声韵母那么清晰的中文语音学特点和背景,但它的建模单元集的建模单元数目却比声韵母建模单元集的少了很多,在同等训练数据量的情况下,音素建模单元的参数能够得到更为充分和准确的估计。而且,现在中文数据库中英文单词和专有名词(如NBA、CEO等)频繁出现,用音素建模单元集去近似地进行拆分会比用声韵母建模单元集稍显合理。
技术实现思路
本专利技术公开了一种可以模拟人体发音且发音精度高的基于DIVA神经网络模型的汉语元音发音方法。为解决上述技术问题,本专利技术一种基于DIVA神经网络模型的汉语元音发音方法,利用DIVA神经网络模型对汉语元音目标进行分类学习训练并产生汉语元音发音,包括以下步骤 步骤I、通过麦克风采集所有的汉语元音,并获取所有汉语元音的共振峰频率; 步骤2、利用主元音方法建立汉语元音音素单元集,并将汉语元音音素单元集中的音素转换为共振峰频率的形式后映射到DIVA神经网络模型中,初始所有的汉语元音音素单元集中的音素单元为未激活状态; 步骤3、随机输入一个汉语元音的共振峰频率,对该汉语元音进行训练和学习,具体为判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则结束训练该汉语元音; 步骤4、再次随机输入一个汉语元音的共振峰频率,判断此汉语元音是否已经在DIVA神经网络模型中学习过,若已经学习过,则跳过训练过程,直接通过扬声器发出该激活状态的音素单元所对应的元音;否则对该汉语元音进行训练和学习,具体为判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则结束训练该汉语元音, 重复执行步骤4直至所有汉语元音都训练和学习完毕为止; 步骤5、利用DIVA神经网络模型将训练完成的所有汉语元音通过扬声器输出。优选地,本专利技术一种基于DIVA神经网络模型的汉语元音发音方法中,所述步骤I中,获取共振峰频率的方法为基于线性预测(LPC)或倒谱法。 优选地,本专利技术一种基于DIVA神经网络模型的汉语元音发音方法中,所述步骤4中判断此汉语元音是否已经在DIVA神经网络模型中已经学习过,具体为通过判断输入的汉语元音的共振峰频率与映射到DIVA神经网络模型中汉语元音音素单元集中的音素的共振峰频率,是否相同来确定该汉语元音所对应的音素是否被激活,若相同则该汉语元音所对应的汉语元音音素单元集中的音素处于激活状态,则此汉语元音已经在DIVA神经网络模型中学习过;若仍处于未激活状态,则此汉语元音没有在DIVA神经网络模型中学习过。本专利技术与现有技术相比,具有以下显著的优点本专利技术以DIVA神经网络模型为基础,在神经解剖学和神经生理学层次上描述和仿真了汉语元音生成和本文档来自技高网
...

【技术保护点】
一种基于DIVA神经网络模型的汉语元音发音方法,其特征在于利用DIVA神经网络模型对汉语元音目标进行分类学习训练并产生汉语元音发音,包括以下步骤:步骤1、通过麦克风采集所有的汉语元音,并获取所有汉语元音的共振峰频率;步骤2、利用主元音方法建立汉语元音音素单元集,并将汉语元音音素单元集中的音素转换为共振峰频率的形式后映射到DIVA神经网络模型中,初始所有的汉语元音音素单元集中的音素单元为未激活状态;步骤3、随机输入一个汉语元音的共振峰频率,对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则不能产生相应的发音,结束对该汉语元音的训练;步骤4、再次随机输入一个汉语元音的共振峰频率,判断此汉语元音是否已经在DIVA神经网络模型中学习过,若已经学习过,则跳过训练过程,直接通过扬声器发出该激活状态的音素单元所对应的元音;否则对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素集中相应的音素单元;若不存在,则不能产生相应的发音,结束对该汉语元音的训练;重复执行步骤4直至所有汉语元音都训练和学习完毕为止;步骤5、利用DIVA神经网络模型将训练完成的所有汉语元音通过扬声器输出。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张少白刘欣徐磊徐歆冰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1