一种针对小语种口语发音评价方法、系统及存储介质技术方案

技术编号:28875311 阅读:19 留言:0更新日期:2021-06-15 23:09
本发明专利技术提供一种针对小语种口语发音评价方法、系统及存储介质。方法包括:获取目标文本、发音词典以及用户依据目标文本做出的朗读音频;利用语音识别模型,生成音素解码结果和音素的对齐结果;对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;对目标语音数据进行音高分析,得到音高分析结果;获取朗读音频的准确度得分、语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;对所述准确度得分、语调得分和声调得分进行融合处理,得到句子发音总得分。本发明专利技术针对小语种发音特点,从准确度、完整度、流利度、断句、声调、语调等多个不同维度对语音进行计算和分析,获得评价结果。

【技术实现步骤摘要】
一种针对小语种口语发音评价方法、系统及存储介质
本专利技术涉及语音识别及评价
,具体而言,尤其涉及一种针对小语种口语发音评价方法、系统及存储介质。
技术介绍
常见的口语发音测评系统多数针对应用较为广泛的英语设计,对于发音准确性的判断。通过对测试语音的特征参数和标准语音的特征参数做比较来获得口语语音的质量评价结果。上述方式无法在小发音单元的粒度上进行质量评价。评价结果也会受到发音人的个人发音特点的影响,比如:如果发音人和标准读音的朗读者的性别年龄一致,则评分会更高。此外,由于上述系统针对印欧语系的发音特点设计,应用于小语种(如日语)口语评价时,由于响应的评测维度区别,造成评价结果不准。
技术实现思路
根据上述提出现有语音评价系统不能适应小语种评价需求的技术问题,而提供一种针对小语种口语发音评价方法、系统及存储介质。本专利技术充分考虑了小语种的特点,设计了针对小语种语音的评测维度。通过将采集的朗读音频按所属语种的音拍对齐,计算各个音拍的声调高低,对单词的声调进行准确的评测。本专利技术采用的技术手段如下:一种针对小语种口语发音评价方法,包括:获取目标文本、发音词典以及用户依据目标文本做出的朗读音频,并对所述朗读音频进行预处理,得到目标语音数据;利用预先训练的语音识别模型,一方面对所述目标语音数据进行解码处理,生成音素解码结果,另一方面对所述目标语音数据进行基于目标文本的强制对齐处理,获取音素的对齐结果;对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;对目标语音数据进行音高分析,得到音高分析结果;基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。进一步地,所述基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分,包括根据以下公式计算音素准确度得分:cost_per_framealign=-log(P(f|qi))其中,Si为音素发音准确度得分,NF(o)为口语朗读音频包含的语音帧数量,fis为起始帧号,fie为终止帧号,P(f|qi)的含义是给定音素qi,在该帧发音为f的对数似然函数值,的含义是对所有音素,在音频帧f的对数似然函数值中,最大的一个值。进一步地,所述基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分,包括:根据音素的对齐结果得到各个音拍在音频中的起止时间;计算每个音拍的音高,获取音高特征曲线;根据各个音拍在音频中的起止时间和所述音高特征曲线,算出各个音拍起止时间内的平均音高;通过分析句尾的若干个音拍的平均音高来判断句子是平调或者是升调,并与预先配置的语调信息相比较,根据比较结果给出朗读音频的语调得分。进一步地,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的声调得分,包括:获取朗读音频中每个单词内所有音拍的音高信息,和预先配置的单词声调相比较,根据比较结果给出朗读音频的声调得分。进一步地,对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到发音评价结果,包括:对所述第一评价结果和第三评价结果进行加权处理,获得单词发音得分;计算句子中所有单词发音得分的平均值作为句子发音得分;将句子发音得分与第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。进一步地,还包括:根据音素对齐结果获取朗读音频的完整度得分作为发音第四评价结果;相应的,对所述第一评价结果、第二评价结果、第三评价结果和第四评价结果进行融合处理,得到句子发音总得分。进一步地,还包括:根据音素对齐结果获取朗读音频的流利度得分作为发音第五评价结果;相应的,对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果和第五评价结果进行融合处理,得到句子发音总得分。进一步地,还包括:根据音素对齐结果获取朗读音频的断句得分作为发音第六评价结果;相应的,对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果、第五评价结果和第六评价结果进行融合处理,得到句子发音总得分。本专利技术还提供了一种针对小语种口语发音评价装置,包括:获取单元,用于获取目标文本、发音词典以及用户依据目标文本做出的朗读音频,并对所述朗读音频进行预处理,得到目标语音数据;第一处理单元,用于利用预先训练的语音识别模型,一方面对所述目标语音数据进行解码处理,生成音素解码结果,另一方面对所述目标语音数据进行基于目标文本的强制对齐处理,获取音素的对齐结果;第二处理单元,用于对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;第二处理单元,用于对目标语音数据进行音高分析,得到音高分析结果;评价单元,用于基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;融合单元,对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。本专利技术还提供了一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序,所述处理器通过所述计算机程序运行执行上述任一项所述的针对小语种口语发音评价方法。较现有技术相比,本专利技术具有以下优点:本专利技术对朗读语音进行从准确度、完整度、流利度、断句、声调、语调等多个不同维度的评分计算和分析,获得评价结果,且涉及多种不同发音粒度,能够满足小语种发音的特点,得到较为准确的小语种发音评价结果。基于上述理由本专利技术可在语言学习特别是小语种学习领域广泛推广。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术针对小语种口语发音评价方法流程图。图2为实施例中评价方法执行流程图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术本文档来自技高网
...

【技术保护点】
1.一种针对小语种口语发音评价方法,其特征在于,包括:/n获取目标文本、发音词典以及用户依据目标文本做出的朗读音频,并对所述朗读音频进行预处理,得到目标语音数据;/n利用预先训练的语音识别模型,一方面对所述目标语音数据进行解码处理,生成音素解码结果,另一方面对所述目标语音数据进行基于目标文本的强制对齐处理,获取音素的对齐结果;/n对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;/n对目标语音数据进行音高分析,得到音高分析结果;/n基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;/n对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。/n

【技术特征摘要】
1.一种针对小语种口语发音评价方法,其特征在于,包括:
获取目标文本、发音词典以及用户依据目标文本做出的朗读音频,并对所述朗读音频进行预处理,得到目标语音数据;
利用预先训练的语音识别模型,一方面对所述目标语音数据进行解码处理,生成音素解码结果,另一方面对所述目标语音数据进行基于目标文本的强制对齐处理,获取音素的对齐结果;
对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;
对目标语音数据进行音高分析,得到音高分析结果;
基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;
对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。


2.根据权利要求1所述的针对小语种口语发音评价方法,其特征在于,所述基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分,包括根据以下公式计算音素准确度得分:



cost_per_framealign=-log(P(f|qi))



其中,Si为音素发音准确度得分,NF(o)为口语朗读音频包含的语音帧数量,fis为起始帧号,fie为终止帧号,
P(f|qi)的含义是给定音素qi,在该帧发音为f的对数似然函数值,

的含义是对所有音素,在音频帧f的对数似然函数值中,最大的一个值。


3.根据权利要求1所述的针对小语种口语发音评价方法,其特征在于,所述基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分,包括:
根据音素的对齐结果得到各个音拍在音频中的起止时间;
计算每个音拍的音高,获取音高特征曲线;
根据各个音拍在音频中的起止时间和所述音高特征曲线,算出各个音拍起止时间内的平均音高;
通过分析句尾的若干个音拍的平均音高来判断句子是平调或者是升调,并与预先配置的语调信息相比较,根据比较结果给出朗读音频的语调得分。


4.根据权利要求3所述的针对小语种口语发音评价方法,其特征在于,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的声调得分,包括:
获取朗读音频中每个单词内所有音拍的音高信息,和预先配置的单词声调相比较,根据比较结果给出朗读音频的声调得分。


5.根据权利要求1所述的针对小语种口语发音评价方法,其特征在于,对所述第一...

【专利技术属性】
技术研发人员:杨海斌徐敏
申请(专利权)人:早道大连教育科技有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1