当前位置: 首页 > 专利查询>清华大学专利>正文

一种语音测评方法技术

技术编号:19347743 阅读:147 留言:0更新日期:2018-11-07 15:57
本发明专利技术实施例提供一种语音测评方法,包括:根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评。本发明专利技术实施例提供的一种语音测评方法,以参考语音为衡量标准,从发音长度、音高特征和后验概率三方面对待测评语音进行语音测评,能够全方位地体现发言人的口语水平,以使得发言人能够从不同角度了解自身口语的不足,从而实现口语水平的提高。

A speech evaluation method

The embodiment of the present invention provides a speech evaluation method, which includes: according to the pronunciation length, pitch characteristic and posterior probability of each phoneme in the speech to be evaluated, and the pronunciation length, pitch characteristic and posterior probability of each phoneme in the reference speech corresponding to the speech to be evaluated, the speech to be evaluated is pronounced. Evaluation. The embodiment of the present invention provides a voice evaluation method, which takes reference voice as the standard of measurement and carries out voice evaluation from three aspects of pronunciation length, pitch characteristics and posterior probability. It can fully reflect the spoken language level of the spokesperson, so that the spokesperson can understand the shortcomings of his spoken language from different angles. In order to improve oral English level.

【技术实现步骤摘要】
一种语音测评方法
本专利技术实施例涉及语音识别与测评
,尤其涉及一种语音测评方法。
技术介绍
当下的经济发展和文化交流,对个人的外语能力要求越来越高。如何快速高效地获取外语技能,是语言教育迫切需要解决的问题。日益发达的计算机技术,特别是人工智能技术,是实现高效语言学习的重要途径。例如,计算机辅助语言学习技术,可以快速地对学习者的口语进行测评,并指出具体的错误,学习者可以据此有针对性地练习和提高。目前的语音测评技术大多基于GOP(GoodnessOfPronunciation)算法。给定待测评语音和相应的文本(可表示成音素串),计算每个音素的后验概率,并根据上述每一后验概率,进行音素级别的语音测评。比如某个音素的后验概率超过一定阈值,则认为学习者对该音素的发音较好,否者判断为发音有误。这类算法聚焦的是音素级别的评分,基于此可以得到词级别到句子级别的评分,但这类分数对学习者口语的评估是片面的,它只反映了口语的一个基本要素,即发音准确性,使得学习者无法针对分数未覆盖的其他口语特性进行练习,致使口语水平不能得到全方位提升。
技术实现思路
本专利技术实施例提供一种语音测评方法,用以解决现有的语音测评只能反映发音准确性而无法覆盖其他口语特征的问题。一方面,本专利技术实施例提供一种语音测评方法,包括:根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评。另一方面,本专利技术实施例提供一种语音测评装置,包括:语音测评单元,用于根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评。再一方面,本专利技术实施例提供一种语音测评设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑指令,以执行前所述的语音测评方法。又一方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的语音测评方法。本专利技术实施例提供的一种语音测评方法,以参考语音为衡量标准,从发音长度、音高特征和后验概率三方面对待测评语音进行语音测评,能够全方位地体现发言人的口语水平,以使得发言人能够从不同角度了解自身口语的不足,从而实现口语水平的提高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的一种语音测评方法的流程示意图;图2为本专利技术实施例的一种语音测评装置的结构示意图;图3为本专利技术实施例的一种语音测评设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决现有的语音测评方法仅能对发音准确性这一个要素进行评价,而不能覆盖口语的其余特性的问题,本专利技术实施例提出了一种语音测评方法,基于节奏、音调和音准三方面对语音进行测评,以帮助发言人实现全方位的口语水平的提升。该方法包括:根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对待测评语音进行语音测评。其中,参考语音是对应待测评语音的标准语音,是用于衡量待测评语音的判断标准。待测评语音与参考语音对应的文本相同,因而待测评语音中的音素与参与语音中的音素一一对应。音素在待测评语音中的发音长度是指该音素在待测评语音中对应的语音帧数;音素在参考语音中的发音长度是指该音素在参考语音中对应的语音帧数。应用发音长度从发言人发音的节奏快慢上对待测评语音进行语音测评,展现了发言人对语言的熟悉程度和语感的掌握程度。将发音长度作为语音测评的判断标准,使得语音测评覆盖了语言的节奏特性。音素在待测评语音中的音高特征是指该音素在待测评语音中对应的各语音帧的音高特征的均值;音素在参考语音中的音高特征是指该音素在参考语音中对应的各语音帧的音高特征的均值。应用音高特征从发言人发音的音调高低上对待测评语音进行语音测评,展现了发言人对语感的掌握程度。将音高特征作为语音测评的判断标准,使得语音测评覆盖了语言的音调特性。音素在待测评语音中的后验概率是指该音素在待测评语音中对应的各语音帧的后验概率的均值;音素在参考语音中的后验概率是指该音素在参考语音中对应的各语音帧的后验概率的均值。将音素的后验概率作为发音评估的置信度,应用音素的后验概率从发言人的发音准确性上对待测评语音进行语音测评,使得语音测评覆盖了语言的音准特性。本专利技术实施例中,以参考语音为衡量标准,从发音长度、音高特征和后验概率三方面对待测评语音进行语音测评,能够全方位地体现发言人的口语水平,以使得发言人能够从不同角度了解自身口语的不足,从而实现口语水平的提高。基于上述实施例,图1为本专利技术实施例的一种语音测评方法的流程示意图,如图1所示,一种语音测评方法,根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评,之前还包括:基于训练好的语音识别系统,获取每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率。其中,语音识别系统包括信号处理及特征提取模块、声学模型、发音词典、语言模型和解码器。其中,声学模型优选为深度神经网络模型。具体地,将待测评语音输入至训练好的语音识别系统,通过语音识别系统,将待测评语音中的语音特性,包括发音长度、音高特征和后验概率,与待测评语音对应的文本中的音素串强制对齐,即获取文本中每一音素对应的待测评语音中的发音长度、音高特征和后验概率。同样地,将参考语音输入至训练好的语音识别系统,通过语音识别系统,将待测评语音中的语音特性,包括发音长度、音高特征和后验概率,与参考语音对应的文本中的音素串强制对齐,即获取文本中每一音素对应的参考语音中的发音长度、音高特征和后验概率。基于上述任一实施例,一种语音测评方法,根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评,进一步包括:1021,根据每一音素在待测评语音中的发音长度,获取待测评语音的音长向量;根据每一音素在参考语音中的发音长度,获取参考语音的音长向量。获取所述待测评语音的音长向量和参考语音的音长向量的相似度作为第一音长测评结果。此处,待测评语音的音长向量由文本音素串中每一音素在待测评语音中的发音长度顺序构成,参考语音的音长向量由文本本文档来自技高网...

【技术保护点】
1.一种语音测评方法,其特征在于,包括:根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评。

【技术特征摘要】
1.一种语音测评方法,其特征在于,包括:根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评。2.根据权利要求1所述的方法,其特征在于,所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评,之前还包括:基于训练好的语音识别系统,获取每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率。3.根据权利要求1所述的方法,其特征在于,所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评,进一步包括:根据每一音素在待测评语音中的发音长度,获取待测评语音的音长向量;根据每一音素在参考语音中的发音长度,获取参考语音的音长向量;获取所述待测评语音的音长向量和参考语音的音长向量的相似度作为第一音长测评结果;根据每一音素在待测评语音中的音高特征,获取待测评语音的音高向量;根据每一音素在参考语音中的音高特征,获取参考语音的音高向量;获取所述待测评语音的音高向量和参考语音的音高向量的相似度作为第一音高测评结果;根据每一音素在待测评语音中的后验概率,获取待测评语音的平均后验概率;根据每一音素在参考语音中的后验概率,获取参考语音的平均后验概率;将所述待测评语音的平均后验概率和参考语音的平均后验概率之差作为第一音准测评结果;根据所述第一音长测评结果、第一音高测评结果和第一音准测评结果,对所述待测评语音进行语音测评。4.根据权利要求1所述的方法,其特征在于,所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率,以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率,对所述待测评语音进行语音测评,进一步包括:获取任一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度;根据每一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度,获取第二音长测评结果;获取任一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度;根据每一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度,获取第二音高测评结果;获取任一音素在待测评语音中的后验概率与在参考语音中的后验概率之差;根据每一音素在待测评语音中的后验概率与在参考语音中的后验概率之差,获取第二音准测评结果;根据所述第二音长测评结果、第二音高测评结果和第二音准测评结果,对所述待测评语音进行语音测评。5.根据权利要求1所述的方法,其特征在于,所述根...

【专利技术属性】
技术研发人员:汤志远王东
申请(专利权)人:清华大学北京孚睿星辰智能科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1