用于普通话水平测评的系统和方法技术方案

技术编号:7580453 阅读:251 留言:0更新日期:2012-07-19 06:28
本发明专利技术提供了一种用于普通话水平测评的系统和方法。根据本发明专利技术的方法包括:获取用户朗读标准文本的语音信号;根据标准文本构建识别网络,所述识别网络包括增读、漏读以及重复模型;基于所述识别网络,将所获取的语音信号与所述标准文本按字音对齐;以及根据字音对齐结果,对用户的普通话水平进行评分。根据本发明专利技术的基于复杂朗读实际问题模拟的识别网络,根据本发明专利技术的普通话评测系统和方法可以更准确、全面、客观地评测被测用户的普通话水平。

【技术实现步骤摘要】

本专利技术一般地涉及计算机语音信号处理领域,特别地涉及计算机实现的用于普通话水平测试的系统和方法。
技术介绍
普通话水平测试是推广普通话工作的重要方法,是使推广普通话工作逐渐走上科学化,规范化,制度化的重要举措。自2007年国家语委正式推广应用计算机智能测试和信息管理系统后,许多省市已经实现计算机辅助测试普通话。利用智能测试系统,计算机可以自动完成对有文字标注的前三题测评。普通话智能测试简化了评测程序,减轻了测试人员的工作量和劳动强度,降低了传统人工测试模式的难度和成本,提高了测试的客观性。现有的普通话测评系统首先将用户语音和朗读文本对齐,确定每个标准模型对应的语音片断。随后计算各标准模型对应的语音片断和该标准模型的相似度以确定用户对具体字词的发音标准程度,进而给出普通话水平综评。显然在现有普通话评测系统的设定下, 用户普通话水平测评结果的合理性很大程度上取决于用户朗读文本和预设标准文本的一致程度。当文本一致时,语音信号和朗读文本合理对齐,相应的语音段和标准模型的相似度度量可以真实反映用户发音的标准程度。反之当用户由于对朗读文本不熟悉或紧张等原因导致朗读不通顺时,其朗读文本已经不同于标准文本,将该语音信号和朗读文本强制对齐将导致字符语音段切分不准确。在这种情况下,后续计算得到的语音段和其对应标准模型的相似度无法真实反映用户字词发音的标准程度,进而基于相似度度量的普通话评测结果不够准确可靠。另一方面,现有的语音评测系统给出的测评结果主要基于用户在具体字词发音上的标准度,而对朗读熟练度较少涉及,主要仅简单通过时长,语速等特征来体现。而根据《大纲》要求,“普通话水平测试不是普通话系统知识的考试,不是文化水平的考核,也不是口才的评估,是应试人运用普通话所达到的标准程度的检测和评定。”可见普通话水平应该包含发音正确度和流畅度两个方面。事实上也不存在一个只会普通话声韵母和音节发音的普通话高手。因此,现有的语音评测系统的评测结果不能全面反映被测人员的普通话水平。
技术实现思路
为了克服现有技术中的上述缺陷,本专利技术提出了一种改进的能够准确且客观地反映用户的普通话朗读水平的测评方法和系统。根据本专利技术的第一方面,提出了一种用于普通话水平测评的方法,包括获取用户朗读标准文本的语音信号;根据标准文本构建识别网络,所述识别网络包括增读、漏读以及重复模型;基于所述识别网络,将所获取的语音信号与所述标准文本按字音对齐;以及根据字音对齐结果,对用户的普通话水平进行评分。根据本专利技术的另一方面,提出了用于普通话水平测评的系统,包括语音获取装置,用于获取用户朗读标准文本的语音信号;识别网络构建装置,用于根据标准文本构建识别网络,所述识别网络包括增读、漏读以及重复模型;字音对齐装置,用于基于所述识别网络,将所获取的语音信号与所述标准文本按字音对齐;以及评分装置,用于根据字音对齐结果,对用户的普通话水平进行评分。优选地,根据标准文本构建识别网络包括将标准文本的字符按自左到右排列形成基本路径;以及在所排列成的基本路径中增加增读、漏读以及重复模型以形成所述识别网络。优选地,基于识别网络实现字音对齐包括在所述识别网络的搜索空间中找到匹配所述朗读语音信号的最优路径;以及基于所述最佳路径,对齐所述朗读语音信号和标准文本,具体地包括确定最优路径中的与标准文本对应的字符,以及将所确定的对应的字符和所述朗读语音信号对齐。优选地,根据字音对齐结果对用户的普通话水平进行评分包括计算朗读熟练度得分和/或计算发音标准度得分。所述计算朗读熟练度得分包括根据字音对齐结果,比较所述最优路径的字符与所述标准文本的内容差异;以及根据所述内容差异计算所述朗读熟练度得分。所述计算发音标准度得分包括根据字音对齐结果,计算所述普通话语音信号中对应于标准文本中的字符的有效语音段的发音标准度;以及综合所有有效语音的发音标准度,计算用户的发音标准度得分。根据本专利技术的普通话朗读水平的测评方法和系统能够更加准确、全面且客观地反映用户的普通话水平。附图说明通过参考附图阅读下文的详细描述,本专利技术的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中图1示意性地示出了根据现有技术的用于普通话水平测评的方法的流程图;图2示意性地示出了根据专利技术一个实施例的用于普通话水平测评的方法的流程图;图3示意性地示出了根据本专利技术的一个实施例的参考网络的构建构成过程;图4示意性地示出了根据本专利技术的一个实施例的参考模型网络的示图;图5示出了根据本专利技术的一个实施例的基于Viterbi搜索的在识别网络的搜索空间中找到匹配所述朗读语音信号的最优路径示意图;图6示意性地示出了根据本专利技术的一个实施例的用于普通话水平测评的系统的框图;图7示出了适于用来实践本专利技术的实施例的计算机系统的示意性框图。在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。具体实施例方式下面将参考若干示例性实施例来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。首先参考图1,其示意性地示出了根据现有技术的普通话水平评测系统执行的普通话水平测评方法100的流程图。现有的普通话水平评测系统主要对具体字词发音标准度进行检测。具体地,现有的普通话测评系统首先将用户语音和朗读文本对齐,确定每个标准模型对应的语音片断。随后计算各标准模型对应的语音片断和该标准模型的相似度以确定用户在具体字词上的发音标准程度,进而给出普通话水平综评。其实现流程如图1所示在步骤SllO中,跟踪采集被测人员朗读的语音信号,对被测人员朗读输入的连续语音信号进行采样,并将其保存为离散化的能量信号。在步骤S120中,提取被测人员朗读输入的连续语音信号的声学特征。系统考虑提取识别相关的语音有效特征,以尽可能减少语音信号中与识别无关的冗余信息,从而可以提高识别准确率,同时降低系统运算量。在步骤S130中,从系统预置模型库中挑选对应于用户朗读的标准文本内容的字词标准发音模型,并按照自左到右顺序拼接作为步骤S140中使用的搜索空间,也即生成识别参考网络。应该理解,字符和字符的标准发音模型是对应的。为了简单起见,在下文中除了另有明示,术语“标准文本”也指代“标准文本对应的标准字符发音”,术语“字符”或“字词”也指代“字符或字词的标准发音模型”。上述系统预置的字词标准发音模型,用于模拟基本音素单元的标准发音。具体地, 该标准发音模型是在事先采集的标准发音人的语音上预先离线训练得到。在步骤S140中,将步骤S120中提取的连续语音信号的声学特征的序列在步骤 S130中构建的识别搜索空间中搜索最优路径,使得每帧语音特征都映射到某个基本模型单元。通过字音对齐,测试人员朗读输入的连续语音信号被分割成独立的语音片断,与标准发音模型单元一一对应。在步骤S150中,分别计算映射到每个标准发音模型的测试人员语音段相应于该标准发音模型的发音标准度。在步骤S160中对被测人员的普通话水平进行评估。具体地,根据S150统计的各字词的发音标准度综合评估该用户的普通话水平。一般而言,系统将累加的标准度得分通过各种函数映射成和人工打分可比的评测打分,作为被测人员的普通本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:高前勇魏思胡国平何婷婷胡郁刘庆峰
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术