语音评分方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:39308132 阅读:8 留言:0更新日期:2023-11-12 15:55
本申请公开了一种语音评分方法、装置、设备、介质及程序产品,涉及人工智能领域。该方法包括:获取目标语音对应的音频数据和文本数据;以文本数据中字的发音为标准对文本数据进行音素划分,得到文本数据对应的音素序列,音素序列中包括多个候选音素;基于音素序列中多个候选音素之间的上下文关系,得到音素序列中多个候选音素分别对应的音素特征表示;对音频数据对应的语音波形进行特征提取,得到音频特征表示;基于音素特征表示和音频特征表示的特征融合结果,确定目标语音对应的语音得分,语音得分用于评价所述目标语音对应的发音标准度。该方法能够提升语音发音评测的准确度。该方法能够提升语音发音评测的准确度。该方法能够提升语音发音评测的准确度。

【技术实现步骤摘要】
语音评分方法、装置、设备、介质及程序产品


[0001]本申请涉及人工智能领域,特别涉及一种语音评分方法、装置、设备、介质及程序产品。

技术介绍

[0002]随着人工智能(Artificial Intelligence,AI)的发展,许多需要人工实现的测评方法逐渐能够通过机器实现,例如,通过AI实现口语评测。
[0003]相关技术中,基于声学模型来提取输入语音的深度发音特征,从而根据深度发音特征对语音的发音准度进行评测,得到口语评测结果,从而实现端到端的口语评测。
[0004]然而,在实际的口语评测过程中,仅通过深度发音特征进行评测,得到的评测结果准确度较低。

技术实现思路

[0005]本申请实施例提供了一种语音评分方法、装置、设备、介质及程序产品,可以提升对语音的发音进行评测时的准确度。所述技术方案如下:
[0006]一方面,提供了一种语音评分方法,所述方法包括:
[0007]获取目标语音对应的音频数据和文本数据,所述音频数据是跟读所述文本数据而产生所述目标语音时所录制的数据;
[0008]以所述文本数据中字的发音为标准对所述文本数据进行音素划分,得到所述文本数据对应的音素序列,所述音素序列中包括多个候选音素;
[0009]基于所述音素序列中所述多个候选音素之间的上下文关系,得到所述音素序列中所述多个候选音素分别对应的音素特征表示;
[0010]对所述音频数据对应的语音波形进行特征提取,得到音频特征表示;
[0011]基于所述音素特征表示和所述音频特征表示的特征融合结果,确定所述目标语音对应的语音得分,所述语音得分用于评价所述目标语音对应的发音标准度。
[0012]另一方面,提供了一种语音评分装置,所述装置包括:
[0013]获取模块,用于获取目标语音对应的音频数据和文本数据,所述音频数据是跟读所述文本数据而产生所述目标语音时所录制的数据;
[0014]第一处理模块,用于以所述文本数据中字的发音为标准对所述文本数据进行音素划分,得到所述文本数据对应的音素序列,所述音素序列中包括多个候选音素;
[0015]所述第一处理模块,还用于基于所述音素序列中所述多个候选音素之间的上下文关系,得到所述音素序列中所述多个候选音素分别对应的音素特征表示;
[0016]第二处理模块,用于对所述音频数据对应的语音波形进行特征提取,得到音频特征表示;
[0017]评测模块,用于基于所述音素特征表示和所述音频特征表示的特征融合结果,确定所述目标语音对应的语音得分,所述语音得分用于评价所述目标语音对应的发音标准
度。
[0018]另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的语音评分方法。
[0019]另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的语音评分方法。
[0020]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语音评分方法。
[0021]本申请的提供的技术方案至少包括以下有益效果:
[0022]在对跟读文本数据所产生的目标语音进行发音评测时,根据目标语音对应的文本数据进行音素序列的生成,得到对应的音素序列,根据音素序列中各个候选音素之间的上下文关系进行特征提取,得到候选音素对应的音素特征表示,同时对目标语音对应的音频数据中的语音波形进行特征提取,得到音频特征表示,从而根据音素特征表示和音频特征表示来进行特征融合,基于特征融合结果进行目标语音的评测,从而得到目标语音对应的语音得分。即,在对目标语音进行评测的过程中,通过将目标语音的文本对应的音素特征和目标语音对应的音频特征融合,从而在评测过程中结合音素特征和语音自身的发音特征,提升了输出结果的准确度。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请一个示例性实施例提供的实施环境的示意图;
[0025]图2是本申请一个示例性实施例提供的语音评测过程的示意图;
[0026]图3是本申请一个示例性实施例提供的语音评分方法的流程图;
[0027]图4是本申请一个示例性实施例提供的语音评分方法的流程图;
[0028]图5是本申请一个示例性实施例提供的语音评分模型的示意图;
[0029]图6是本申请一个示例性实施例提供的语音处理模型的训练方法的流程图;
[0030]图7是本申请一个示例性实施例提供的语音分类对抗训练过程的示意图;
[0031]图8是本申请一个示例性实施例提供的语音处理模型的训练示意图;
[0032]图9是本申请一个示例性实施例提供的语音评分装置结构框图;
[0033]图10是本申请一个示例性实施例提供的语音评分装置结构框图;
[0034]图11是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
[0035]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0036]首先,对本申请实施例中涉及的名词进行简要介绍:
[0037]人工智能:是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0038]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
[0039]机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音评分方法,其特征在于,所述方法包括:获取目标语音对应的音频数据和文本数据,所述音频数据是跟读所述文本数据而产生所述目标语音时所录制的数据;以所述文本数据中字的发音为标准对所述文本数据进行音素划分,得到所述文本数据对应的音素序列,所述音素序列中包括多个候选音素;基于所述音素序列中所述多个候选音素之间的上下文关系,得到所述音素序列中所述多个候选音素分别对应的音素特征表示;对所述音频数据对应的语音波形进行特征提取,得到音频特征表示;基于所述音素特征表示和所述音频特征表示的特征融合结果,确定所述目标语音对应的语音得分,所述语音得分用于评价所述目标语音对应的发音标准度。2.根据权利要求1所述的方法,其特征在于,所述基于所述音素特征表示和所述音频特征表示的特征融合结果,确定所述目标语音对应的语音得分,包括:基于注意力机制对所述音素特征表示和所述音频特征表示进行特征融合,得到音素融合表示;基于所述音素融合表示预测所述目标语音对应的所述语音得分。3.根据权利要求2所述的方法,其特征在于,所述基于注意力机制对所述音素特征表示和所述音频特征表示进行特征融合,得到音素融合表示,包括:确定所述音素特征表示和所述音频特征表示之间的注意力分布;对所述注意力分布和所述音素特征表示进行特征融合,得到所述音素融合表示。4.根据权利要求3所述的方法,其特征在于,所述确定所述音素特征表示和所述音频特征表示之间的注意力分布,包括:基于所述音素特征表示和所述音频特征表示之间的特征相似度,确定注意力得分;通过预设转换函数对所述注意力得分进行数值转换,得到所述音频特征表示对应的权重系数;基于所述权重系数和所述音频特征表示进行加权求和,得到所述注意力分布。5.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述音素序列中所述多个候选音素之间的上下文关系,得到所述音素序列中所述多个候选音素分别对应的音素特征表示,包括:通过目标音素编码器对所述音素序列中的所述候选音素进行上下文融合,输出所述音素序列中所述多个候选音素分别对应的音素特征表示;所述对所述音频数据对应的语音波形进行特征提取,得到音频特征表示,包括:通过目标音频编码器对所述音频数据中语音波形的特征进行提取,得到所述音频特征表示。6.根据权利要求5所述的方法,其特征在于,所述目标音素编码器和所述目标音频编码器是通过对语音处理模型进行训练得到的,所述语音处理模型包括音素编码器、音频编码器和域判别器,所述域判别器用于根据语音对应的口音进行语音分类;所述语音处理模型的训练过程包括:获取样本语音对应的样本音频数据、样本文本数据、第一标签和第二标签,所述第一标签用于指示所述样本语音对应的发音标准度,所述第二标签用于指示所述样本语音对应的
语音类别;以所述样本文本数据中字的发音为标准对所述样本文本数据进行音素划分,得到所述样本文本数据对应的样本音素序列;将所述样本音频数据和所述样本音素序列输入至所述语音处理模型,输出得到所述样本语音对应的预测得分和预测分类结果;基于所述预测...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1