音频评测方法及装置、非瞬时性存储介质制造方法及图纸

技术编号:33251575 阅读:16 留言:0更新日期:2022-04-30 22:50
一种音频评测方法及装置、非瞬时性存储介质。该音频评测方法包括:获取音频数据和包括第一文本的参考文本;基于第一发音词典模型和第一语言模型,对音频数据进行第一解码操作,以得到第一解码文本;根据第一解码文本和参考文本,确定第一评分;根据参考文本和第一发音词典模型,确定第二发音词典模型;根据参考文本,确定第二语言模型,其中,第二语言模型是基于参考文本训练得到的;基于第二发音词典模型和第二语言模型,对音频数据进行第二解码操作,以得到第二解码文本以及音频数据与第二解码文本的对应关系;根据第一文本、第二解码文本以及上述对应关系,确定第二评分;以及根据第一评分和第二评分,确定音频数据的最终评分。分。分。

【技术实现步骤摘要】
音频评测方法及装置、非瞬时性存储介质


[0001]本公开的实施例涉及一种音频评测方法、音频评测装置以及非瞬时性存储介质。

技术介绍

[0002]口语交流是一种重要的人际交流的方式,在人们的实际生活中具有重要地位。随着社会经济的不断发展,人们对口语学习的效率以及口语评估的客观性、公正性和规模化测试提出了越来越高的要求。传统的人工口语水平评测方法由于评估者的个体差异,往往不能保证评分标准的统一;另外,由于需要大量的人力、物力和财力支持,人工评测方法也不适宜用于大规模的口语测试。
[0003]随着语音技术的不断成熟,语音技术在各个领域的应用越来越广泛。口语评测是语音技术最早的应用领域之一,越来越多的口语教学者和用户都纷纷借助于这种口语评测的技术来进行口语的教学和学习。

技术实现思路

[0004]本公开至少一个实施例提供一种音频评测方法,包括:获取音频数据和参考文本,其中,所述参考文本包括第一文本;基于第一发音词典模型和第一语言模型,对所述音频数据进行第一解码操作,以得到第一解码文本;根据所述第一解码文本和所述参考文本,确定第一评分;根据所述参考文本和所述第一发音词典模型,确定第二发音词典模型;根据所述参考文本,确定第二语言模型,其中,所述第二语言模型是基于所述参考文本训练得到的;基于所述第二发音词典模型和所述第二语言模型,对所述音频数据进行第二解码操作,以得到第二解码文本以及所述音频数据与所述第二解码文本的对应关系;根据所述第一文本、所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系,确定第二评分;以及根据所述第一评分和所述第二评分,确定所述音频数据的最终评分。
[0005]例如,在本公开的一些实施例提供的音频评测方法中,根据所述参考文本和所述第一发音词典模型,确定所述第二发音词典模型,包括:响应于所述参考文本中的任一单词未出现在所述第一发音词典模型中,基于所述任一单词生成所述任一单词的发音,并将所述任一单词和所述任一单词的发音加入所述第一发音词典模型,以得到所述第二发音词典模型;以及响应于所述参考文本中的全部单词均出现在所述第一发音词典模型中,将所述第一发音词典模型作为所述第二发音词典模型。
[0006]例如,在本公开的一些实施例提供的音频评测方法中,基于所述任一单词生成所述任一单词的发音,包括:采用字素到音素转换模型处理所述任一单词以生成所述任一单词的发音。
[0007]例如,在本公开的一些实施例提供的音频评测方法中,基于所述第一发音词典模型和所述第一语言模型,对所述音频数据进行所述第一解码操作,以得到所述第一解码文本,包括:基于声学模型、上下文相关音子模型、所述第一发音词典模型和所述第一语言模型,构建第一加权有限状态转换器解码图;以及基于所述第一加权有限状态转换器解码图,
使用维特比算法对所述音频数据进行所述第一解码操作,以得到所述第一解码文本。
[0008]例如,在本公开的一些实施例提供的音频评测方法中,基于所述第二发音词典模型和所述第二语言模型,对所述音频数据进行所述第二解码操作,以得到所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系,包括:基于所述声学模型、所述上下文相关音子模型、所述第二发音词典模型和所述第二语言模型,构建第二加权有限状态转换器解码图;以及基于所述第二加权有限状态转换器解码图,使用维特比算法对所述音频数据进行所述第二解码操作,以得到所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系。
[0009]例如,在本公开的一些实施例提供的音频评测方法中,所述声学模型包括基于时延神经网络的链式模型或者高斯混合模型—隐马尔可夫模型。
[0010]例如,在本公开的一些实施例提供的音频评测方法中,所述第二语言模型包括一元语言模型。
[0011]例如,在本公开的一些实施例提供的音频评测方法中,根据所述第一解码文本和所述参考文本,确定所述第一评分,包括:确定所述第一解码文本与所述参考文本之间的重叠度和最长公共子序列;以及基于所述重叠度和所述最长公共子序列,得到所述第一评分。
[0012]例如,在本公开的一些实施例提供的音频评测方法中,根据所述第一文本、所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系,确定所述第二评分,包括:确定所述第二解码文本中的与所述第一文本对应的第二文本;基于所述音频数据与所述第二解码文本的对应关系,确定所述音频数据中的与所述第二文本对应的音频段;以及基于所述第一文本和与所述第二文本对应的音频段,确定所述第二评分。
[0013]例如,在本公开的一些实施例提供的音频评测方法中,所述第一文本包括至少一个文本片段,基于所述第一文本和与所述第二文本对应的音频段,确定所述第二评分,包括:基于所述第一文本和与所述第二文本对应的音频段,确定与所述至少一个文本片段中的每个文本片段中的每个单词对应的音频子段;基于发音准确度算法,根据与所述每个文本片段中的每个单词对应的音频子段,确定所述每个单词的单词评分,并将所述每个文本片段中的全部单词的单词评分的平均值作为所述每个文本片段的片段评分;以及根据所述至少一个文本片段的片段评分,确定所述第二评分。
[0014]例如,在本公开的一些实施例提供的音频评测方法中,根据所述第一评分和所述第二评分,确定所述音频数据的所述最终评分,包括:获取与所述第一评分对应的第一权重和与所述第二评分对应的第二权重;以及根据所述第一评分、所述第一权重、所述第二评分和所述第二权重,确定所述最终评分,其中,所述最终评分表示为:
[0015]Score_Final=W1*Score_1+W2*Score2,
[0016]其中,Score_Final表示所述最终评分,Score_1表示所述第一评分,Score2表示所述第二评分,W1表示所述第一权重,W2表示所述第二权重,且W1+W2=1。
[0017]例如,在本公开的一些实施例提供的音频评测方法中,第一权重W1的取值范围为[0.3,0.5]。
[0018]例如,在本公开的一些实施例提供的音频评测方法中,所述第一文本包括数字、符号单位和外来词至少之一。
[0019]例如,在本公开的一些实施例提供的音频评测方法中,所述音频数据包括回答测
试题目的语音数据,所述参考文本包括至少一个对应于所述测试题目的参考答案本文,每个所述参考答案文本包括所述第一文本。
[0020]本公开至少一个实施例还提供一种音频评测装置,包括:存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行本公开任一实施例提供的音频评测方法。
[0021]本公开至少一个实施例还提供一种非瞬时性存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行本公开任一实施例提供的音频评测方法的指令。
附图说明
[0022]为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频评测方法,包括:获取音频数据和参考文本,其中,所述参考文本包括第一文本;基于第一发音词典模型和第一语言模型,对所述音频数据进行第一解码操作,以得到第一解码文本;根据所述第一解码文本和所述参考文本,确定第一评分;根据所述参考文本和所述第一发音词典模型,确定第二发音词典模型;根据所述参考文本,确定第二语言模型,其中,所述第二语言模型是基于所述参考文本训练得到的;基于所述第二发音词典模型和所述第二语言模型,对所述音频数据进行第二解码操作,以得到第二解码文本以及所述音频数据与所述第二解码文本的对应关系;根据所述第一文本、所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系,确定第二评分;以及根据所述第一评分和所述第二评分,确定所述音频数据的最终评分。2.根据权利要求1所述的音频评测方法,其中,根据所述参考文本和所述第一发音词典模型,确定所述第二发音词典模型,包括:响应于所述参考文本中的任一单词未出现在所述第一发音词典模型中,基于所述任一单词生成所述任一单词的发音,并将所述任一单词和所述任一单词的发音加入所述第一发音词典模型,以得到所述第二发音词典模型;以及响应于所述参考文本中的全部单词均出现在所述第一发音词典模型中,将所述第一发音词典模型作为所述第二发音词典模型。3.根据权利要求2所述的音频评测方法,其中,基于所述任一单词生成所述任一单词的发音,包括:采用字素到音素转换模型处理所述任一单词以生成所述任一单词的发音。4.根据权利要求1-3任一项所述的音频评测方法,其中,基于所述第一发音词典模型和所述第一语言模型,对所述音频数据进行所述第一解码操作,以得到所述第一解码文本,包括:基于声学模型、上下文相关音子模型、所述第一发音词典模型和所述第一语言模型,构建第一加权有限状态转换器解码图;以及基于所述第一加权有限状态转换器解码图,使用维特比算法对所述音频数据进行所述第一解码操作,以得到所述第一解码文本。5.根据权利要求4所述的音频评测方法,其中,基于所述第二发音词典模型和所述第二语言模型,对所述音频数据进行所述第二解码操作,以得到所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系,包括:基于所述声学模型、所述上下文相关音子模型、所述第二发音词典模型和所述第二语言模型,构建第二加权有限状态转换器解码图;以及基于所述第二加权有限状态转换器解码图,使用维特比算法对所述音频数据进行所述第二解码操作,以得到所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系。6.根据权利要求4所述的音频评测方法,其中,所述声学模型包括基于时延神经网络的
链式模型或者高斯混合模型—隐马尔可夫模型。7.根据权利要求1-3任一项所述的音频评测方法,其中,所述第二语言模型包括一元语言模型。8.根据权利要求1-3任一项所述的音频评测方法,其中,...

【专利技术属性】
技术研发人员:杨晓飞
申请(专利权)人:苏州声通信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1