语音音素识别方法、介质、装置和计算设备制造方法及图纸

技术编号:38243081 阅读:10 留言:0更新日期:2023-07-25 18:05
本公开的实施方式提供了一种语音音素识别方法、介质、装置和计算设备。该方法包括:将待识别的语音数据输入到预先训练的音素识别模型中,输出语音数据对应的音素序列,音素序列包括语音数据中每个音素的出现顺序。本公开解决了相关技术中语音识别无法有效匹配虚拟人物形象的唇部动作和语音的问题,将语音数据拆解为可以由AI的唇部动作对应表现的音素的集合,且以序列形式表现,使得AI通过读取音素序列,可以按每个音素的持续时间依次通过唇部动作进行表现,从而实现唇部动作与语音的准确匹配,进而显著提高观众的体验。进而显著提高观众的体验。进而显著提高观众的体验。

【技术实现步骤摘要】
语音音素识别方法、介质、装置和计算设备


[0001]本公开的实施方式涉及互联网
,更具体地,本公开的实施方式涉及一种语音音素识别方法、介质、装置和计算设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]现有技术中,随着人工智能技术和人机交互技术的发展,通过虚拟人物、AI或虚拟主播来实现直播、旅游信息介绍等功能,得到越来越广泛的应用。通过预先制作需要播报的内容,然后由虚拟人物形象或AI来自动播送,能够显著节省人力成本。为保证观众用户体验,这类虚拟人物形象在播送时,其唇部动作与预先制作的内容语音需要保证较好的同步,即唇语驱动的场景。因此,需要AI对应的语音识别算法能够确定每个字或者更细的单位所出现的时间,以保证唇语驱动场景下虚拟人物形象的唇部动作能够与语音直接同步。
[0004]现有语音识别算法,通常只能确定整句的语音,粒度不足,导致无法有效匹配虚拟人物形象的唇部动作和语音,观众体验也较差。

技术实现思路

[0005]本公开提供一种语音音素识别方法、介质、装置和计算设备,以解决相关技术中语音识别无法有效匹配虚拟人物形象的唇部动作和语音的问题。
[0006]在本公开实施方式的第一方面中,提供了一种语音音素识别方法,包括:
[0007]将待识别的语音数据输入到预先训练的音素识别模型中,输出语音数据对应的音素序列,音素序列包括语音数据中每个音素的出现顺序。
[0008]在本公开实施方式的第二方面中,提供了一种语音音素识别模型训练方法,包括:
[0009]采集用于训练的样本语音数据和样本语音数据对应的样本音素序列;
[0010]将样本语音数据输入到音素识别模型中,基于输出的预测音素序列与样本音素序列,对音素识别模型进行训练。
[0011]在本公开实施方式的第三方面中,提供了一种计算机可读存储介质,包括:
[0012]计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如本公开第一方面中的指标数据存储方法,和/或,计算机执行指令被处理器执行时用于实现如本公开第二方面中的语音音素识别模型训练方法。
[0013]在本公开实施方式的第四方面中,提供了一种语音音素识别装置,包括:
[0014]识别模块,用于将待识别的语音数据输入到预先训练的音素识别模型中,输出语音数据对应的音素序列,音素序列包括语音数据中每个音素的出现顺序
[0015]在本公开实施方式的第五方面中,提供了一种语音音素识别模型训练装置,包括:
[0016]样本模块,用于采集用于训练的样本语音数据和样本语音数据对应的样本音素序列;
[0017]训练模块,用于将样本语音数据输入到音素识别模型中,基于输出的预测音素序列与样本音素序列,对音素识别模型进行训练。
[0018]在本公开实施方式的第六方面中,提供了一种计算设备,包括:至少一个处理器;
[0019]以及与至少一个处理器通信连接的存储器;
[0020]其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使计算设备执行如本公开第一方面中的语音音素识别方法;和/或,以使计算设备执行如本公开第二方面中的语音音素识别模型训练方法。
[0021]根据本公开实施方式的语音音素识别方法、介质、装置和计算设备,通过将待识别的语音数据输入到预先训练的音素识别模型中,输出语音数据对应的音素序列。由此,可以将语音数据拆解为可以由AI的唇部动作对应表现的音素的集合,且以序列形式表现,使得AI通过读取音素序列,可以按每个音素的持续时间依次通过唇部动作进行表现,从而实现唇部动作与语音的准确匹配,进而显著提高观众的体验。
附图说明
[0022]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0023]图1示意性地示出了根据本公开实施方式的应用场景图;
[0024]图2示意性地示出了根据本公开另一实施例的语音音素识别方法的流程图;
[0025]图3示意性地示出了根据本公开又一实施例的语音音素识别模型训练方法的流程图;
[0026]图4示意性地示出了根据本公开再一实施例的语音音素识别模型训练方法的流程图;
[0027]图5示意性地示出了图4所示实施例中输出预测音素序列的方法流程图;
[0028]图6示意性地示出了根据本公开再一实施例的存储介质的结构示意图;
[0029]图7示意性地示出了根据本公开再一实施例的语音音素识别装置的结构示意图;
[0030]图8示意性地示出了根据本公开再一实施例的语音音素识别模型训练装置的结构示意图;
[0031]图9示意性地示出了根据本公开再一实施例的计算设备的结构示意图。
[0032]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0033]下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0034]本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0035]根据本公开的实施方式,提出了一种语音音素识别方法、介质、装置和计算设备。
[0036]下面是本公开涉及的用语说明:
[0037]唇语驱动:即虚拟人物直播中,通过虚拟人物形象或AI的唇部动作与播放的语音相匹配,使得观众产生语音是由虚拟人物形象或AI的唇部(和口腔)的运动而产生的场景,唇语驱动相对于非唇语驱动的场景,拟真度更高,不会让观众产生音画不同步的感觉,能显著提升用户观看虚拟人物直播时的体验。
[0038]音素:音素是最小的语音单位,一个发音动作构成一个音素,一段音频由多个音素构成的序列组成。
[0039]在本文中,需要理解的是,所涉及的术语仅用于方便理解,并未表示对含义的限制。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
[0040]另外,本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据,对数据的采集、传播、使用等,均符合国家相关法律法规要求,本公开实施方式/实施例可以互相组合。
[0041]专利技术概述
[0042]本专利技术人发现,现有技术中,通过预先制作需要播报的内容,然后由虚拟人物形象或AI来自动播送,能够显著节省人力成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音音素识别方法,其特征在于,所述方法包括:将待识别的语音数据输入到预先训练的音素识别模型中,输出所述语音数据对应的音素序列,所述音素序列包括所述语音数据中每个音素的出现顺序。2.根据权利要求1所述的语音音素识别方法,其特征在于,所述语音数据为中文语音,所述音素序列包括:每个中文汉字之间存在至少一个间隔字符。3.根据权利要求1或2中任一项所述的语音音素识别方法,其特征在于,所述音素识别模型通过如下方式训练得到:采集用于训练的样本语音数据和所述样本语音数据对应的样本音素序列;将所述样本语音数据输入到音素识别模型中,基于输出的预测音素序列与所述样本音素序列,对所述音素识别模型进行训练。4.根据权利要求3所述的语音音素识别方法,其特征在于,所述采集用于训练的样本语音数据和所述样本语音数据对应的样本音素序列,包括:确定用于训练的样本语音数据对应的样本汉字序列;在每个相邻的样本文字间插入一个样本间隔字符;将所述样本汉字转化为样本拼音;将包含所述样本拼音和所述样本间隔字符的序列转化为所述样本音素序列。5.根据权利要求3所述的语音音素识别方法,其特征在于,所述将所述样本语音数据输入到音素识别模型中,基于输出的预测音素序列与所述样本音素序列,对所述音素识别模型进行训练,包括:将所述样本语音数据输入到所述音素识别模型中,输出所述预测音素序列;基于所述输出的预测音素序列与所述样本音素序列,确定所述预测音素序列的正确性;基于所述预测音素序列的正确性,计算所述音素识别模型的损失函数;基于损失函数的结果,对所述音素...

【专利技术属性】
技术研发人员:王树栋许盛辉潘照明
申请(专利权)人:杭州网之易创新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1