一种发音评测方法、装置、设备及存储介质制造方法及图纸

技术编号:36576273 阅读:8 留言:0更新日期:2023-02-04 17:34
本申请实施例公开一种发音评测方法、装置、设备及存储介质。该方法包括:获取待评测音频和对应的参考文本,通过预设的声学模型对齐待评测音频和对应的参考文本,得到待评测音频的第一测试文本;将第一测试文本中连续的相同字母合并得到第二测试文本,计算第二测试文本中各字母的后验概率,根据后验概率确定对应字母的发音准确度;根据第二测试文本中的字母和对应参考文本中的字母,确定漏读的字母;将第二测试文本中的blank符删除或替换为停顿符得到第三测试文本,根据预设的停顿语言模型计算第三测试文本的语言模型困惑度,根据语言模型困惑度确定待评测音频的发音流利度。采用上述技术手段,解决现有发音评测方式的评测维度单一的问题。一的问题。一的问题。

【技术实现步骤摘要】
一种发音评测方法、装置、设备及存储介质


[0001]本申请实施例涉及辅助学习
,尤其涉及一种发音评测方法、装置、设备及存储介质。

技术介绍

[0002]发音质量评测技术是计算机辅助语言学习的一个细分方法,发音质量评测技术要求高校准确地指出学习者的发音错误,给出字母级别的客观评价,帮助学习者纠正发音错误。发音错误类型包括错读、漏读、多读和停顿。
[0003]现有的发音评测方式是通过CTC(Connectionist Temporal Classification,联结时序分类)检测发音参数和声学参数之间非线性关系的瞬时区域,以检测发音错读。或者提取基于基音信息的短语停顿等特征,以检测发音流利度。但专利技术人发现,这两种发音测评方式只针对某一种发音错误类型进行发音质量测评,而无法评估其他维度发音情况,评测结果不够全面准确。

技术实现思路

[0004]本申请实施例提供一种发音评测方法、装置、设备及存储介质,解决现有发音评测方式的评测维度单一的问题,提高评测结果的准确性。
[0005]在第一方面,本申请实施例提供了一种发音评测方法,包括:
[0006]获取待评测音频和对应的参考文本,通过预设的声学模型对齐所述待评测音频和对应的参考文本,得到所述待评测音频的第一测试文本,所述第一测试文本包含对应参考文本中的字母和blank符;
[0007]将所述第一测试文本中连续的相同字母合并得到第二测试文本,计算所述第二测试文本中各字母的后验概率,根据所述后验概率确定对应字母的发音准确度
[0008]根据所述第二测试文本中的字母和对应参考文本中的字母,确定漏读的字母;
[0009]将所述第二测试文本中的blank符删除或替换为停顿符得到第三测试文本,根据预设的停顿语言模型计算所述第三测试文本的语言模型困惑度,根据所述语言模型困惑度确定所述待评测音频的发音流利度。
[0010]在第二方面,本申请实施例提供了一种发音评测装置,包括:
[0011]测试文本确定模块,被配置为获取待评测音频和对应的参考文本,通过预设的声学模型对齐所述待评测音频和对应的参考文本,得到所述待评测音频的第一测试文本,所述第一测试文本包含对应参考文本中的字母和blank符;
[0012]准确度评测模块,被配置为将所述第一测试文本中连续的相同字母合并得到第二测试文本,计算所述第二测试文本中各字母的后验概率,根据所述后验概率确定对应字母的发音准确度;
[0013]漏读评测模块,被配置为根据所述第二测试文本中的字母和对应参考文本中的字母,确定漏读的字母;
[0014]流利度评测模块,被配置为将所述第二测试文本中的blank符删除或替换为停顿符得到第三测试文本,根据预设的停顿语言模型计算所述第三测试文本的语言模型困惑度,根据所述语言模型困惑度确定所述待评测音频的发音流利度。
[0015]在第三方面,本申请实施例提供了一种发音评测设备,包括:
[0016]一个或多个处理器;
[0017]存储器,用于存储一个或多个程序;
[0018]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的发音评测方法。
[0019]在第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的发音评测方法。
[0020]上述发音评测方法、装置、设备及存储介质,通过将第二测试文本中各字母的后验概率作为对应字母的发音良好度,以根据各字母的发音良好度评测音频的发音准确度。通过将第二测试文本中各字母与参考文本中的字母进行比较,以检测音频的漏读错误。通过预设的停顿语言模型预测带停顿符的第三测试文本中单词和停顿符的出现概率,根据出现概率计算第三测试文本的语言困惑度,从而根据语言模型困惑度评测音频的发音流利度。通过上述评测音频的发音准确度、漏读错误和发音流利度的技术手段,实现了从多个维度的发音评测,提高了评测结果的准确性。
附图说明
[0021]图1是本申请一个实施例提供的一种发音评测方法的流程图;
[0022]图2是本申请实施例提供的状态转移表格的示意图;
[0023]图3是本申请实施例提供的转移路径网络的示意图;
[0024]图4是本申请实施例提供的最优路径的示意图;
[0025]图5是本申请一个实施例提供的一种发音评测装置的结构示意图;
[0026]图6是本申请一个实施例提供的一种发音评测设备的结构示意图。
具体实施方式
[0027]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0028]需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或操作或对象与另一个实体或操作或对象区分开来,而不一定要求或者暗示这些实体或操作或对象之前存在任何这种实际的关系或顺序。例如,第一样本集和第二样本集的“第一”和“第二”用来区分不同的样本集合。
[0029]本申请实施例中提供的发音评测方法可以由发音评测设备执行,该发音评测设备可以通过软件和/或硬件的方式实现,该发音评测设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。例如,发音评测设备可以是手机、平板和电脑这一类智能设备。
[0030]发音评测设备安装有至少一类操作系统,其中,操作系统包括但不限定于安卓系统、Linux系统及Windows系统。发音评测设备可以基于操作系统安装至少一个应用程序,应
用程序可以为操作系统自带的应用程序,也可以为从第三方设备或者服务器中下载的应用程序,实施例中,发音评测设备至少按照有可以执行发音评测方法的应用程序,因此,发音评测设备也可以是应用程序本身。
[0031]为了便于理解,实施例中以手机为发音评测设备进行示例性描述。
[0032]图1是本申请一个实施例提供的一种发音评测方法的流程图。参考图1,该发音评测方法包括:
[0033]S110、获取待评测音频和对应的参考文本,通过预设的声学模型对齐待评测音频和对应的参考文本,得到待评测音频的第一测试文本,第一测试文本包含对应参考文本中的字母和blank符。
[0034]其中,待评测音频为需要进行发音评测的音频,其可通过麦克风对用户朗读手机屏幕上显示的文本内容时采集得到。参考文本为用户朗读的手机屏幕上显示的文本内容。示例性的,手机屏幕上显示有“I have a cat”的文本内容,用户朗读“I have a cat”时,手机内置的麦克风采集到用户朗读“I have a cat”的音频,相应的手机会获取到待评测音频和对应的参考文本,以根据参考文本评测该待评测音频的发音质量。但传统的发音评测方法只能从单一维度评测发音质量,如检测发音的准确度或流利度,这导致评测不够全面,评测结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种发音评测方法,其特征在于,包括:获取待评测音频和对应的参考文本,通过预设的声学模型对齐所述待评测音频和对应的参考文本,得到所述待评测音频的第一测试文本,所述第一测试文本包含对应参考文本中的字母和blank符;将所述第一测试文本中连续的相同字母合并得到第二测试文本,计算所述第二测试文本中各字母的后验概率,根据所述后验概率确定对应字母的发音准确度;根据所述第二测试文本中的字母和对应参考文本中的字母,确定漏读的字母;将所述第二测试文本中的blank符删除或替换为停顿符得到第三测试文本,根据预设的停顿语言模型计算所述第三测试文本的语言模型困惑度,根据所述语言模型困惑度确定所述待评测音频的发音流利度。2.根据权利要求1所述的方法,其特征在于,所述通过预设的声学模型对齐所述待评测音频和对应的参考文本,得到所述待评测音频的长度一致的第一测试文本包括:在所述参考文本的每个字母前后各插入一个blank符,得到第五测试文本;根据所述待评测音频的帧长度和所述第五测试文本,以及预设的状态跳转条件,确定包含至少一条转移路径的转移路径网络;其中,所述状态跳转条件包括从字母前的blank符跳转至字母后的blank符;计算所述转移路径上字母和blank符的后验概率,根据所述转移路径上的字母和blank符的后验概率,在所述转移路径网络中确定出最优路径;将所述最优路径对应的字符序列确定为所述第一测试文本。3.根据权利要求2所述的方法,其特征在于,所述计算所述第二测试文本中各字母的后验概率包括:确定所述最优路径上字母的后验概率为所述第一测试文本中字母的后验概率;将所述第一测试文本中单独出现的字母的后验概率确定为所述第二测试文本对应字母的后验概率;计算所述第一测试文本中连续出现的字母的平均后验概率,将所述平均后验概率确定为所述第二测试文本对应字母的后验概率。4.根据权利要求1所述的方法,其特征在于,所述根据所述第二测试文本中的字母和对应参考文本中的字母,确定漏读的字母包括:将所述第二测试文本中的blank符删除得到第四测试文本,将所述第四测试文本与对应的参考文本进行比较,确定漏读的字母。5.根据权利要求1所述的方法,其特征在于,所述将所述第二测试文本中的blank符删除或替换为停顿符得到第三测试文本包括:根据所述第二测试文本中的blank符序列,确定所述blank符序列的序列长度;将所述第二测试文本中所述序列长度满足预设长度阈值...

【专利技术属性】
技术研发人员:叶珑雷延强
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1