发音评测方法、装置、设备及存储介质制造方法及图纸

技术编号:38591052 阅读:9 留言:0更新日期:2023-08-26 23:30
本申请公开了一种发音评测方法、装置、设备及存储介质,该方法包括:获取音频数据和对应的发音文本,获取发音文本的音素序列和预先构建的解码网络,解码网络中的最后一个节点通过无条件有向路径连接第一个节点;基于解码网络搜索音频数据的最优路径,并确定最优路径的输入序列和输出序列;基于输出序列确定音频数据中发音文本的朗读次数,在朗读次数大于一的情况下,基于输入序列和音素序列,从音频数据中截取每次朗读发音文本的音频片段;从多个音频片段中确定出目标对象的目标音频片段,基于目标音频片段对目标对象的发音进行评测,输出评测结果。通过上述技术手段,评测结果可准确反映孩子的发音问题,有利于孩子纠正自身的发音问题。音问题。音问题。

【技术实现步骤摘要】
发音评测方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种发音评测方法、装置、设备及存储介质。

技术介绍

[0002]发音评测技术是计算机辅助语言学习的一个细分方向,其可通过对用户的发音音频进行分析,输出用户关于发音准确度、流利度以及完整度等指标的分数,以便用户基于各种指标的分数纠正自身发音的问题。
[0003]在现有技术中,家长可指导孩子按照学习设备显示的文本进行朗读时,学习设备采集孩子的音频,基于音频对孩子的发音进行评测。在家长指导孩子朗读文本时,家长可能会先亲自示范文本的发音,再让孩子跟读,此时学习设备会采集到包含有家长发音和孩子发音的音频。基于该音频进行发音评测得到的是针对家长发音和孩子发音的评测结果,评测结果不够准确。

技术实现思路

[0004]本申请提供一种发音评测方法、装置、设备及存储介质,以解决现有技术中对孩子发音和家长发音进行综合评测而影响评测结果准确性的问题,提高评测结果的准确性。
[0005]第一方面,本申请提供了一种发音评测方法,包括:
[0006]获取音频数据和对应的发音文本,获取所述发音文本的音素序列和预先构建的解码网络,所述解码网络中的最后一个节点通过无条件有向路径连接第一个节点;
[0007]基于所述解码网络搜索所述音频数据的最优路径,并确定所述最优路径的输入序列和输出序列;
[0008]基于所述输出序列确定所述音频数据中所述发音文本的朗读次数,在所述朗读次数大于一的情况下,基于所述输入序列和所述音素序列,从所述音频数据中截取每次朗读所述发音文本的音频片段;
[0009]从多个所述音频片段中确定出目标对象的目标音频片段,基于所述目标音频片段对所述目标对象的发音进行评测,输出评测结果。
[0010]第二方面,本申请提供了一种发音评测装置,包括:
[0011]数据获取模块,被配置为获取音频数据和对应的发音文本,获取所述发音文本的音素序列和预先构建的解码网络,所述解码网络中的最后一个节点通过无条件有向路径连接第一个节点;
[0012]路径搜索模块,被配置为基于所述解码网络逐帧搜索所述音频数据的最优路径,并确定所述最优路径的输入序列和输出序列;
[0013]片段截取模块,被配置为基于所述输出序列确定所述音频数据中所述发音文本的朗读次数,在所述朗读次数大于一的情况下,基于所述输入序列和所述音素序列,从所述音频数据中截取每次朗读所述发音文本的音频片段;
[0014]第一评测模块,被配置为从多个所述音频片段中确定出目标对象的目标音频片段,基于所述目标音频片段对所述目标对象的发音进行评测,输出评测结果。
[0015]第三方面,本申请提供了一种发音评测设备,包括:
[0016]一个或多个处理器;存储器,存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的发音评测方法。
[0017]第四方面,本申请提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的发音评测方法。
[0018]在本申请中,采集用户朗读发音文本的音频数据,获取发音文本的音素序列和预先基于该音素序列构建的解码网络,基于解码网络搜索音频数据的最优路径,得到最优路径的输入序列和输出序列,输入序列由音频数据的每个音频帧对应的目标音素按照时序组成,输出序列中发音文本的字符序列的数量与用户朗读发音文本的朗读次数相同。基于输出序列中发音文本的字符序列的数量,可确定音频数据中发音文本的朗读次数,在朗读次数大于一的情况下,音频数据可能录入了非目标对象朗读发音文本时的音频,因此基于输入序列和音素序列,从音频数据中截取每次朗读所述发音文本的音频片段。从多个音频片段中确定出目标对象的目标音频片段,基于目标音频片段对目标对象的发音进行评测,得到目标对象朗读发音文本时的评测结果。本申请用于评测的音频片段只包含目标对象朗读发音文本时的音频片段,滤除了非目标对象的音频对评测结果的影响,提高了评测结果的准确性,解决了现有技术中对孩子发音和家长发音进行综合评测而影响评测结果准确性的问题,评测结果可准确反映孩子的发音问题,有利于孩子纠正自身的发音问题。
附图说明
[0019]图1是本申请实施例提供的一种发音评测方法的流程图;
[0020]图2是本申请实施例提供的解码网络的示意图;
[0021]图3是本申请实施例提供的确定最优路径的输入序列和输出序列的流程图;
[0022]图4是本申请实施例提供的第二个音频帧的第一路径的示意图;
[0023]图5是本申请实施例提供的第三个音频帧的第一路径的示意图;
[0024]图6是本申请实施例提供的截取朗读发音文本的音频片段的流程图;
[0025]图7是本申请实施例提供的基于声纹特征确定目标音频片段的流程图;
[0026]图8是本申请实施例提供的基于二分法确定目标音频片段的流程图;
[0027]图9是本申请实施例提供的一种发音评测装置的结构示意图;
[0028]图10是本申请实施例提供的一种发音评测设备的结构示意图。
具体实施方式
[0029]为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序
的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
[0030]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0031]在较为常见的现有实现方式中,当家长指导孩子朗读学生设备显示的文本时,先亲自朗读一次文本以示范文本的正确发音,孩子对该文本进行跟读,此时学习设备会采集到包含有家长发音和孩子发音的音频。例如,当学生设备显示单词apple时,家长先朗读一次apple,孩子跟读一次apple,则学习设备采集到的音频中存在两次apple的发音,只有后一次发音才是孩子的发音片段。现有学习设备会对整个音频也即本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种发音评测方法,其特征在于,包括:获取音频数据和对应的发音文本,获取所述发音文本的音素序列和预先构建的解码网络,所述解码网络中的最后一个节点通过无条件有向路径连接第一个节点;基于所述解码网络搜索所述音频数据的最优路径,并确定所述最优路径的输入序列和输出序列;基于所述输出序列确定所述音频数据中所述发音文本的朗读次数,在所述朗读次数大于一的情况下,基于所述输入序列和所述音素序列,从所述音频数据中截取每次朗读所述发音文本的音频片段;从多个所述音频片段中确定出目标对象的目标音频片段,基于所述目标音频片段对所述目标对象的发音进行评测,输出评测结果。2.根据权利要求1所述的发音评测方法,其特征在于,所述基于所述解码网络搜索所述音频数据的最优路径,并确定所述最优路径的输入序列和输出序列,包括:基于预先训练的声学模型确定所述音频数据中每个音频帧的声学分数,所述声学分数包括每个预设音素的预测分数;基于每个所述音频帧对应的各个预设音素的预测分数以及所述解码网络中每个节点的候选输入音素、候选有向路径和候选输出字符,搜索所述音频数据的最优路径,确定每个所述音频帧对应的目标音素和每个所述音频帧对应的目标节点的目标输出字符;按照每个所述音频帧在所述音频数据中的顺序,对每个所述音频帧对应的目标音素进行排序,得到所述最优路径的输入序列;基于每个所述音频帧在所述音频数据中的顺序,对每个所述音频帧对应的目标节点的目标输出字符进行排序,得到所述最优路径的输出序列。3.根据权利要求2所述的发音评测方法,其特征在于,所述基于所述输出序列确定所述音频数据中所述发音文本的朗读次数,包括:根据所述输出序列中所述发音文本的字符序列的数量,确定所述音频数据中所述发音文本的朗读次数。4.根据权利要求2所述的发音评测方法,其特征在于,所述基于所述输入序列和所述音素序列,从所述音频数据中截取每次朗读所述发音文本的音频片段,包括:基于所述音素序列确定所述输入序列中对应的目标音素序列,所述目标音素序列中不同音素之间的顺序与所述音素序列中不同音素之间的顺序相同,所述目标音素序列在所述输入序列中前后相邻音频帧为静音音素;基于所述目标音素序列对应的音频帧的时间戳,从所述音频数据中截取所述目标音素序列对应的音频片段。5.根据权...

【专利技术属性】
技术研发人员:潘潇雷延强
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1