当前位置: 首页 > 专利查询>清华大学专利>正文

基于重音突显度的英语发音质量评价方法技术

技术编号:6366207 阅读:331 留言:0更新日期:2012-04-11 18:40
基于重音突显度的英语发音质量评价方法,属于语音信号技术领域,其特征包括:计算音节归一化段长,计算音节最高归一化响度,计算音节最高归一化半音程;利用突显度模型,计算音节段长突显度、音节响度突显度和音节半音程突显度;利用Bayes分类器计算音节归一化重音突显度;计算重音突显度分数,并对分数进行映射。本发明专利技术的发音质量评价方法稳健性好,能与匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。

【技术实现步骤摘要】

本专利技术属于语音信号
,具体地说,涉及利用语音信号处理技术实现英语 发音质量评价方法,可用于计算机辅助语言学习系统。
技术介绍
发音质量客观评价是计算机辅助语言学习系统中最重要的功能之一,是进行人机 交互式学习的前提。发音质量客观评价可以分为两个方面,一个方面是从语音信号学角度 进行评价,主要考察音素或单词的发音是否准确;另一个方面是从音韵学角度进行评价,主 要从韵律方面进行考察,包括重音、语调、语速、停顿等。其中,重音的特征主要表现为音高 的提高,音节段长的延长和音强的增大等,也就是对应基频、段长和能量这三个语音信号基 本参数。由于现有技术的局限,目前发音质量客观评价方法的性能还不够理想。由于韵律 特征很难判断,特别是重音和语调很难准确检测,传统的发音质量评价方法只是考察了音 素或单词的发音是否准确,并不考虑发音的韵律特性。近年来,也有些研究通过比较测试语 音信号和参考语音信号的基频、段长和能量等参数的匹配程度,从而提高原来的发音质量 评价的性能。中国专利技术专利申请第200510114848. 8号公开了一种基于HMM的发音质量评 价方法,该方法主要依靠声学模型,只是从音素发音是否准确来评价发音质量。中国专利技术专 利申请第200810102076. X号提出了一种以教师的发音作为参考语音的评价方法,该方法 从声学、感知、和韵律方面计算学习者的测试语音相对于参考语音的发音质量差别,但是在 韵律上只是使用基频和段长,但由于基频和段长只是韵律的低层次参数,还不能很好的反 映韵律特性。本专利技术针对现有技术中存在的问题,提出一种基于重音凸显度的发音质量评价方 法。该方法充分考虑了韵律中的重音发音情况,在没考虑音素和单词的匹配分数的情况下, 其性能已经十分接近现有的最好技术水平。本专利技术的发音质量评价方法稳健性好,能与音 素和单词的匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的 语言学习系统和自动口语评测系统中。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提出一种基于重音突显度的发音质 量评价方法,可用于计算机辅助语言学习系统,其得到的机器分数与专家的主观分数的相 关性达到0. 774。本专利技术的特征在于所述方法是在计算机中依次按以下步骤实现的步骤(1)计算机初始化建立一个大规模语音信号数据库,该数据库中的语音都有相应的音素级别标注, 且该语音中包含了英语所有音素的语音。建立一个大规模语音信号的重音训练数据库,该数据库中包含多段语音,语音的所有音节都手工标注为重读或者非重读;建立一个语音发音质量评价数据库,该数据库由多段测试语音和对应的参考语音 组成,且每一段测试语音都由英语评分专家给出了一个发音质量评价分数,作为主观评价 分数;步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路,分 别得到相应的分帧语音信号,每帧语音信号长度为30ms ;步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计 算电路,按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化 段长步骤(3. 1)利用预先训练好的隐含马尔可夫模型HMM,采用维特比Viterbi解码算 法分别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准,得到所述 两种分帧语音信号中每个音素以及每个单词的时间分隔信息,所述音素分为元音和辅音, 辅音又分为前辅音和后辅音,元音分为单词重音和非单词重音,共计四类音素;步骤(3. 2)根据步骤(3. 1)得到的各音素的时长,按下式计算参考语音信号和测 试语音信号中第i个音素的归一化段长权利要求1. 一种,其特征在于,所述方法是在计算机 中依次按以下步骤实现的 步骤(1)计算机初始化建立一个大规模语音信号数据库,该数据库中的语音都有相应的音素级别标注,且该 语音中包含了英语所有音素的语音。建立一个大规模语音信号的重音训练数据库,该数据库中包含多段语音,语音的所有 音节都手工标注为重读或者非重读;建立一个语音发音质量评价数据库,该数据库由多段测试语音和对应的参考语音组 成,且每一段测试语音都由英语评分专家给出了一个发音质量评价分数,作为主观评价分 数;步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路,分别得 到相应的分帧语音信号,每帧语音信号长度为30ms ;步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计算 电路,按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化段 长步骤(3. 1)利用预先训练好的隐含马尔可夫模型HMM,采用维特比Viterbi解码算法分 别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准,得到所述两种 分帧语音信号中每个音素以及每个单词的时间分隔信息,所述音素分为元音和辅音,辅音 又分为前辅音和后辅音,元音分为单词重音和非单词重音,共计四类音素;步骤(3. 2)根据步骤(3. 1)得到的各音素的时长,按下式计算参考语音信号和测试语 音信号中第i个音素的归一化段长全文摘要,属于语音信号
,其特征包括计算音节归一化段长,计算音节最高归一化响度,计算音节最高归一化半音程;利用突显度模型,计算音节段长突显度、音节响度突显度和音节半音程突显度;利用Bayes分类器计算音节归一化重音突显度;计算重音突显度分数,并对分数进行映射。本专利技术的发音质量评价方法稳健性好,能与匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。文档编号G10L15/10GK101996635SQ20101026676公开日2011年3月30日 申请日期2010年8月30日 优先权日2010年8月30日专利技术者刘加, 李坤, 袁桦 申请人:清华大学本文档来自技高网
...

【技术保护点】
一种基于重音突显度的英语发音质量评价方法,其特征在于,所述方法是在计算机中依次按以下步骤实现的:步骤(1)计算机初始化:建立一个大规模语音信号数据库,该数据库中的语音都有相应的音素级别标注,且该语音中包含了英语所有音素的语音。建立一个大规模语音信号的重音训练数据库,该数据库中包含多段语音,语音的所有音节都手工标注为重读或者非重读;建立一个语音发音质量评价数据库,该数据库由多段测试语音和对应的参考语音组成,且每一段测试语音都由英语评分专家给出了一个发音质量评价分数,作为主观评价分数;步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路,分别得到相应的分帧语音信号,每帧语音信号长度为30ms;步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计算电路,按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化段长:步骤(3.1)利用预先训练好的隐含马尔可夫模型HMM,采用维特比Viterbi解码算法分别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准,得到所述两种分帧语音信号中每个音素练数据库中所有音节的音节段长突显度、音节响度突显度和音节半音程突显度;步骤(7.2)采用步骤(1)所述大规模语音重音训练数据库中音节的重音或非重音的标注,以及步骤(7.1)得到的特征,进行贝叶斯分类器的训练,得到贝叶斯分类器的贝叶斯分类矩阵;步骤(7.3)根据步骤(2)~步骤(6)得到的一段参考语音信号和一段测试语音信号的各音节段长突显度、音节响度突显度和音节半音程突显度,利用步骤(7.1)~步骤(7.2)得到的贝叶斯分类矩阵,进行贝叶斯分类计算,得到所述一段参考语音信号和一段测试语音信号的各音节的重音突显度值;步骤(7.4)对步骤(7.3)得到的所述参考语音信号和测试语音信号的各音节重音突显度值进行归一化,其计算公式为:***其中,P↓[norm](s)为第s个音节的归一化重音突显度值,P(s)为第s个音节的重音突显度值,P↓[0]为步骤(7.1)所述的大规模语音重音训练数据库中所有非重音音节的平均突显度值,P↓[1]为步骤(7.1)所述的大规模语音重音训练数据库中所有重音音节的平均突显度值;步骤(8)按照以下步骤,计算所述测试语音信号的发音质以及每个单词的时间分隔信息,所述音素分为元音和辅音,辅音又分为前辅音和后辅音,元音分为单词重音和非单词重音,共计四类音素;步骤...

【技术特征摘要】

【专利技术属性】
技术研发人员:李坤袁桦刘加
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利