语音音素识别方法、介质、装置和计算设备制造方法及图纸

技术编号：38243081 阅读：10 留言：0更新日期：2023-07-25 18:05

本公开的实施方式提供了一种语音音素识别方法、介质、装置和计算设备。该方法包括：将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序。本公开解决了相关技术中语音识别无法有效匹配虚拟人物形象的唇部动作和语音的问题，将语音数据拆解为可以由AI的唇部动作对应表现的音素的集合，且以序列形式表现，使得AI通过读取音素序列，可以按每个音素的持续时间依次通过唇部动作进行表现，从而实现唇部动作与语音的准确匹配，进而显著提高观众的体验。进而显著提高观众的体验。进而显著提高观众的体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音音素识别方法、介质、装置和计算设备

[0001]本公开的实施方式涉及互联网
，更具体地，本公开的实施方式涉及一种语音音素识别方法、介质、装置和计算设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]现有技术中，随着人工智能技术和人机交互技术的发展，通过虚拟人物、AI或虚拟主播来实现直播、旅游信息介绍等功能，得到越来越广泛的应用。通过预先制作需要播报的内容，然后由虚拟人物形象或AI来自动播送，能够显著节省人力成本。为保证观众用户体验，这类虚拟人物形象在播送时，其唇部动作与预先制作的内容语音需要保证较好的同步，即唇语驱动的场景。因此，需要AI对应的语音识别算法能够确定每个字或者更细的单位所出现的时间，以保证唇语驱动场景下虚拟人物形象的唇部动作能够与语音直接同步。
[0004]现有语音识别算法，通常只能确定整句的语音，粒度不足，导致无法有效匹配虚拟人物形象的唇部动作和语音，观众体验也较差。

技术实现思路

[0005]本公开提供一种语音音素识别方法、介质、装置和计算设备，以解决相关技术中语音识别无法有效匹配虚拟人物形象的唇部动作和语音的问题。
[0006]在本公开实施方式的第一方面中，提供了一种语音音素识别方法，包括：
[0007]将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序。
[00...

【技术保护点】

【技术特征摘要】
1.一种语音音素识别方法，其特征在于，所述方法包括：将待识别的语音数据输入到预先训练的音素识别模型中，输出所述语音数据对应的音素序列，所述音素序列包括所述语音数据中每个音素的出现顺序。2.根据权利要求1所述的语音音素识别方法，其特征在于，所述语音数据为中文语音，所述音素序列包括：每个中文汉字之间存在至少一个间隔字符。3.根据权利要求1或2中任一项所述的语音音素识别方法，其特征在于，所述音素识别模型通过如下方式训练得到：采集用于训练的样本语音数据和所述样本语音数据对应的样本音素序列；将所述样本语音数据输入到音素识别模型中，基于输出的预测音素序列与所述样本音素序列，对所述音素识别模型进行训练。4.根据权利要求3所述的语音音素识别方法，其特征在于，所述采集用于训练的样本语音数据和所述样本语音数据对应的样本音素序列，包括：确定用于训练的样本语音数据对应的样本汉字序列；在每个相邻的样本文字间插入一个样本间隔字符；将所述样本汉字转化为样本拼音；将包含所述样本拼音和所述样本间隔字符的序列转化为所述样本音素序列。5.根据权利要求3所述的语音音素识别方法，其特征在于，所述将所述样本语音数据输入到音素识别模型中，基于输出的预测音素序列与所述样本音素序列，对所述音素识别模型进行训练，包括：将所述样本语音数据输入到所述音素识别模型中，输出所述预测音素序列；基于所述输出的预测音素序列与所述样本音素序列，确定所述预测音素序列的正确性；基于所述预测音素序列的正确性，计算所述音素识别模型的损失函数；基于损失函数的结果，对所述音素...

【专利技术属性】
技术研发人员：王树栋，许盛辉，潘照明，
申请(专利权)人：杭州网之易创新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人