语音评分方法、装置、设备、介质及程序产品制造方法及图纸

技术编号：39308132 阅读：8 留言：0更新日期：2023-11-12 15:55

本申请公开了一种语音评分方法、装置、设备、介质及程序产品，涉及人工智能领域。该方法包括：获取目标语音对应的音频数据和文本数据；以文本数据中字的发音为标准对文本数据进行音素划分，得到文本数据对应的音素序列，音素序列中包括多个候选音素；基于音素序列中多个候选音素之间的上下文关系，得到音素序列中多个候选音素分别对应的音素特征表示；对音频数据对应的语音波形进行特征提取，得到音频特征表示；基于音素特征表示和音频特征表示的特征融合结果，确定目标语音对应的语音得分，语音得分用于评价所述目标语音对应的发音标准度。该方法能够提升语音发音评测的准确度。该方法能够提升语音发音评测的准确度。该方法能够提升语音发音评测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音评分方法、装置、设备、介质及程序产品

[0001]本申请涉及人工智能领域，特别涉及一种语音评分方法、装置、设备、介质及程序产品。

技术介绍

[0002]随着人工智能(Artificial Intelligence，AI)的发展，许多需要人工实现的测评方法逐渐能够通过机器实现，例如，通过AI实现口语评测。
[0003]相关技术中，基于声学模型来提取输入语音的深度发音特征，从而根据深度发音特征对语音的发音准度进行评测，得到口语评测结果，从而实现端到端的口语评测。
[0004]然而，在实际的口语评测过程中，仅通过深度发音特征进行评测，得到的评测结果准确度较低。

技术实现思路

[0005]本申请实施例提供了一种语音评分方法、装置、设备、介质及程序产品，可以提升对语音的发音进行评测时的准确度。所述技术方案如下：
[0006]一方面，提供了一种语音评分方法，所述方法包括：
[0007]获取目标语音对应的音频数据和文本数据，所述音频数据是跟读所述文本数据而产生所述目标语音时所录制的数据；
[0008]以所述文本数据中字的发音为标准对所述文本数据进行音素划分，得到所述文本数据对应的音素序列，所述音素序列中包括多个候选音素；
[0009]基于所述音素序列中所述多个候选音素之间的上下文关系，得到所述音素序列中所述多个候选音素分别对应的音素特征表示；
[0010]对所述音频数据对应的语音波形进行特征提取，得到音频特征表示；
[0011]基于所述音素特征表示...

【技术保护点】

【技术特征摘要】
1.一种语音评分方法，其特征在于，所述方法包括：获取目标语音对应的音频数据和文本数据，所述音频数据是跟读所述文本数据而产生所述目标语音时所录制的数据；以所述文本数据中字的发音为标准对所述文本数据进行音素划分，得到所述文本数据对应的音素序列，所述音素序列中包括多个候选音素；基于所述音素序列中所述多个候选音素之间的上下文关系，得到所述音素序列中所述多个候选音素分别对应的音素特征表示；对所述音频数据对应的语音波形进行特征提取，得到音频特征表示；基于所述音素特征表示和所述音频特征表示的特征融合结果，确定所述目标语音对应的语音得分，所述语音得分用于评价所述目标语音对应的发音标准度。2.根据权利要求1所述的方法，其特征在于，所述基于所述音素特征表示和所述音频特征表示的特征融合结果，确定所述目标语音对应的语音得分，包括：基于注意力机制对所述音素特征表示和所述音频特征表示进行特征融合，得到音素融合表示；基于所述音素融合表示预测所述目标语音对应的所述语音得分。3.根据权利要求2所述的方法，其特征在于，所述基于注意力机制对所述音素特征表示和所述音频特征表示进行特征融合，得到音素融合表示，包括：确定所述音素特征表示和所述音频特征表示之间的注意力分布；对所述注意力分布和所述音素特征表示进行特征融合，得到所述音素融合表示。4.根据权利要求3所述的方法，其特征在于，所述确定所述音素特征表示和所述音频特征表示之间的注意力分布，包括：基于所述音素特征表示和所述音频特征表示之间的特征相似度，确定注意力得分；通过预设转换函数对所述注意力得分进行数值转换，得到所述音频特征表示对应的权重系数；基于所述权重系数和所述音频特征表示进行加权求和，得到所述注意力分布。5.根据权利要求1至4任一所述的方法，其特征在于，所述基于所述音素序列中所述多个候选音素之间的上下文关系，得到所述音素序列中所述多个候选音素分别对应的音素特征表示，包括：通过目标音素编码器对所述音素序列中的所述候选音素进行上下文融合，输出所述音素序列中所述多个候选音素分别对应的音素特征表示；所述对所述音频数据对应的语音波形进行特征提取，得到音频特征表示，包括：通过目标音频编码器对所述音频数据中语音波形的特征进行提取，得到所述音频特征表示。6.根据权利要求5所述的方法，其特征在于，所述目标音素编码器和所述目标音频编码器是通过对语音处理模型进行训练得到的，所述语音处理模型包括音素编码器、音频编码器和域判别器，所述域判别器用于根据语音对应的口音进行语音分类；所述语音处理模型的训练过程包括：获取样本语音对应的样本音频数据、样本文本数据、第一标签和第二标签，所述第一标签用于指示所述样本语音对应的发音标准度，所述第二标签用于指示所述样本语音对应的
语音类别；以所述样本文本数据中字的发音为标准对所述样本文本数据进行音素划分，得到所述样本文本数据对应的样本音素序列；将所述样本音频数据和所述样本音素序列输入至所述语音处理模型，输出得到所述样本语音对应的预测得分和预测分类结果；基于所述预测...

【专利技术属性】
技术研发人员：林炳怀，王丽园，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人