一种发音测评方法、介质、装置和计算设备制造方法及图纸

技术编号:26381185 阅读:28 留言:0更新日期:2020-11-19 23:50
本发明专利技术的实施方式提供了一种发音测评方法、装置、介质和计算设备。该方法包括:从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;获取至少一个音频数据段对应的待测音素特征序列;基于时间边界、混淆音素表和混淆音素对应的阈值,从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素;若对应时间边界内存在待纠正音素,并且声学似然度大于预设门限,则基于待纠正音素调整对应的得分。本方法可以大大提高对发音音频中混淆音素的识别率,为用户提供更有针对性的发音测评反馈,改善用户体验。

【技术实现步骤摘要】
一种发音测评方法、介质、装置和计算设备
本专利技术的实施方式涉及软件领域,更具体地,本专利技术的实施方式涉及一种发音测评方法、介质、装置和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。在语言学习的过程中,学习正确的口语发音也是非常重要的一部分,然而在之前几年,口语学习只能跟随线下的老师进行,随着技术的发展,线上的口语学习成为一种趋势,近几年口语发音测评打分和纠正主要建立在语音特征的表示上。然而,现有的发音测评方案大多采用的是沿用由剑桥大学的SilkeWitt在他的博士论文中提出经典的GOP(GoodnessofPronunciation)算法,或者是由其衍生出来的其他方案。这些现有的发音测评方案大多采用CE(交叉熵,CrossEntropy)准则训练的神经网络模型或者更老的GMM模型来计算用户发音的似然度得分,而CE模型对音素识别的准确率低,无法针对用户发音时容易混淆、或误发的音素进行识别纠正。专利技术内容由于现有本文档来自技高网...

【技术保护点】
1.一种发音测评方法,其特征在于,包括:/n从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;/n获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;/n获取至少一个音频数据段对应的待测音素特征序列;/n基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素;/n若对应时间边界内存在所述待纠正音素,并且所述声学似然度大于预设门限,则基于所述待纠正音素调整对应的得分。/n

【技术特征摘要】
1.一种发音测评方法,其特征在于,包括:
从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;
获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;
获取至少一个音频数据段对应的待测音素特征序列;
基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素;
若对应时间边界内存在所述待纠正音素,并且所述声学似然度大于预设门限,则基于所述待纠正音素调整对应的得分。


2.如权利要求1所述的方法,其中,还包括:
基于所述待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容,其中发音纠错内容用于指示用户对所述待纠正音素进行改进练习。


3.如权利要求1或2所述的方法,其中,采用音素识别网络来获取至少一个音频数据段对应的待测音素特征序列。


4.如权利要求3所述的方法,其中,由所述测评内容中的至少一个单词、发音词典和所述混淆音素表构建成所述音素识别网络;且
所述音素识别网络中每一网络路径的词图根据预先录入的开发集进行调整。


5.如权利要求1至4任一所述的方法,其中,所述基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素,包括:
获取基于所述测评内容生成的标准音素特征序列;
根据所述时间边界将至少一个音频数据段中每一单词对应的所...

【专利技术属性】
技术研发人员:杨晓飞蒋成林刘晨晨沈欣尧张欣王治民邓雅惠高慧朝
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1