标准发音生成方法及相关装置制造方法及图纸

技术编号:26342575 阅读:27 留言:0更新日期:2020-11-13 20:35
本发明专利技术实施例提供了一种标准发音生成方法及相关装置,标准发音生成方法包括:获取标准文本和所述标准文本对应的用户音频;根据所述标准文本获取各个标准文本特征向量,根据所述用户音频获取各个用户音频帧特征向量,并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量;将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合,得到各个融合特征向量;根据各个融合特征向量获取对应所述标准文本的标准发音。本发明专利技术实施例所提供的标准发音生成方法及相关装置,可以生成具有准确用户特征的标准发音,以提高用户语言学习的效率。

【技术实现步骤摘要】
标准发音生成方法及相关装置
本专利技术实施例涉及计算机领域,尤其涉及一种标准发音生成方法及相关装置。
技术介绍
随着计算机技术和互联网技术的发展,用户可以利用语言教学系统进行语言的学习和发音矫正。首先用户根据给定的文本进行发音,然后语言教学系统对用户的发音进行识别和评估,输出评估结果,同时还会给出一段对应给定文本的标准发音音频,用户可以根据标准发音音频进行跟读,以纠正自己的发音。然而,通过上述方式进行语言学习时,语言教学系统中的标准发音大多是采用人工录制或者借助语言合成模型生成的方式获取,对于人工录制的方式,由于语言学习文本丰富多样且数量巨大,人工录制的成本非常高,而且随着教学内容的更新,需要重新录制标准发音,时间成本也高;对于语音合成的方式,现有的语言合成模型,只能合成固定说话人音色的标准音频,无法根据当前用户进行改变,而由于每个人的发音特点、音调以及音域的不同,用户基于标准发音的模仿效果不好,在一定程度上影响了学习效率和学习体验。为此,如何生成具有准确用户特征的标准发音,以提高用户语言学习的效率就成为亟需解决的技术问题。
技术实现思路
本专利技术实施例提供一种标准发音生成方法及相关装置,可以生成具有准确用户特征的标准发音,以提高用户语言学习的效率。为解决上述问题,本专利技术实施例提供一种标准发音生成方法,包括:获取标准文本和所述标准文本对应的用户音频;根据所述标准文本获取各个标准文本特征向量,根据所述用户音频获取各个用户音频帧特征向量,并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量;将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合,得到各个融合特征向量;根据各个融合特征向量获取对应所述标准文本的标准发音。为解决上述问题,本专利技术实施例提供一种标准发音生成装置,包括:标准文本和用户音频获取单元,适于获取标准文本和所述标准文本对应的用户音频;特征向量获取单元,适于根据所述标准文本获取各个标准文本特征向量,根据所述用户音频获取各个用户音频帧特征向量,并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量;融合特征向量获取单元,适于将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合,得到各个融合特征向量;标准发音获取单元,根据各个融合特征向量获取对应所述标准文本的标准发音。为解决上述问题,本专利技术实施例提供一种存储介质,所述存储介质存储有适于标准发音生成的程序,以实现如前述任一项所述的标准发音生成方法。为解决上述问题,本专利技术实施例提供一种设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述任一项所述的标准发音生成方法。与现有技术相比,本专利技术的技术方案具有以下优点:本专利技术实施例所提供的标准发音生成方法及相关装置,其中,标准发音生成方法,包括根据所述标准文本获取各个标准文本特征向量,根据与标准文本对应的用户音频获取各个用户音频帧特征向量,并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量,通过将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合,得到各个融合特征向量,再根据各个融合特征向量获取对应所述标准文本的标准发音。可以看出,标准发音的获取过程,是基于融合了用户声学特征向量和标准文本特征向量的各个融合特征向量,一方面,用户声学特征向量通过用户音频帧特征向量和预定的各个基准身份特征向量获取,使得用户声学特征向量中不仅包含了用户音频的声学特征,且通过了预定的基准身份特征向量突出了用户的声学特征,可以尽可能地避免用户音频获取时,环境、设备等音素造成的影响,使得所获取的用户声学特征向量更准确地表达用户的声学特点,另一方面,标准文本特征向量能够准确定地表示标准文本,从而可以使得融合特征向量中即包括了标准文本特征也包括了具有较高准确性的用户声学特征,从而可以得到更为准确地具有用户声学特征的标准发音。这样,本专利技术实施例所提供的标准发音生成方法,能够生成具有用户声学特点的个性化的标准发音,从而用户在进行语言学习时,能够更好地进行模仿,提高学习效率,并保证学习体验。可选方案中,本专利技术实施例所提供的标准发音生成方法,在获取各个用户声学特征向量时,首先确定各个所述用户音频帧特征向量中的当前用户音频帧特征向量;然后,获取所述当前用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度;再根据各个所述关联度和与所述关联度对应的所述基准身份特征向量,获取所述当前用户音频帧特征向量的用户声学特征向量,直至得到所述用户音频的全部音频帧的用户声学特征向量。这样,通过确定当前用户音频帧特征向量与各个基准身份特征向量的关联度,可以得到与用户声学特征向量更接近的基准身份特征向量,同时基于关联度和与其对应的基准身份特征向量获取用户声学特征向量,不仅可以保证利用基准身份特征向量实现用户声学特征的表示,避免直接使用受到环境和设备等音素影响的用户音频获取的用户音频帧特征向量中噪音信息的影响,提高用户声学特征向量所表示的用户声学特征的准确性,而且通过此方式获取用户声学特征向量的计算方式简单,运算量小,准确度高。可选方案中,本专利技术实施例所提供的标准发音生成方法,还包括通过语音识别,获取所述用户音频对应的识别文本;获取所述识别文本和所述基准文本的相似度,当所述相似度小于预定的相似度阈值时,执行所述相互对应的所述用户声学特征向量和所述标准文本特征进行融合,得到各个融合特征向量的步骤。可以看出,本专利技术实施例所提供的标准发音生成方法,在进行融合特征向量获取之前,通过语音识别,得到用户音频的识别文本,并将其与标准文本比较,确定二者的相似度,只有当相似度小于相似度阈值时,才进行融合特征向量获取和标准音频的获取,从而可以减少标准音频的生成,减少运算量,降低对设备的要求。附图说明图1是本专利技术实施例所提供的标准发音生成方法的一流程示意图;图2为本专利技术实施例所提供的标准发音生成方法的获取用户声学特征向量步骤的一流程示意图;图3为本专利技术实施例所提供的标准发音生成方法的另一流程示意图;图4为本专利技术实施例所提供的标准发音生成装置的一框图;图5为本专利技术实施例所提供的标准发音生成装置的另一框图;图6是本专利技术实施例提供的设备一种可选硬件设备架构。具体实施方式现有技术中,难以生成具有用户特征的标准发音,影响了用户的学习效率和学习体验。为了生成具有用户特征的标准发音,以提高用户语言学习的效率,本专利技术实施例提供了一种标准发音生成方法,包括:获取标准文本和所述标准文本对应的用户音频;根据所述标准文本获取各个标准文本特征向量,根据所述用户音频获取各个用户音频帧特征向量,并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量;将相互对应的所述用户声学特征本文档来自技高网...

【技术保护点】
1.一种标准发音生成方法,其特征在于,包括:/n获取标准文本和所述标准文本对应的用户音频;/n根据所述标准文本获取各个标准文本特征向量,根据所述用户音频获取各个用户音频帧特征向量,并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量;/n将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合,得到各个融合特征向量;/n根据各个融合特征向量获取对应所述标准文本的标准发音。/n

【技术特征摘要】
1.一种标准发音生成方法,其特征在于,包括:
获取标准文本和所述标准文本对应的用户音频;
根据所述标准文本获取各个标准文本特征向量,根据所述用户音频获取各个用户音频帧特征向量,并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量;
将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合,得到各个融合特征向量;
根据各个融合特征向量获取对应所述标准文本的标准发音。


2.如权利要求1所述的标准发音生成方法,其特征在于,所述根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量的步骤包括:
获取各个所述用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度;
根据对应于同一个用户音频帧特征向量的各个所述关联度和与所述关联度对应的所述基准身份特征向量,获取所述用户音频帧特征向量的用户声学特征向量,得到每个所述用户音频帧特征向量的用户声学特征向量。


3.如权利要求2所述的标准发音生成方法,其特征在于,所述获取各个所述用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度的步骤包括:
对各个所述用户音频帧特征向量和各个所述基准身份特征向量进行向量维数转换,得到向量维数相同的各个维数转换音频特征向量和各个维数转换身份特征向量;
计算各个所述维数转换音频特征向量和各个维数转换身份特征向量的关联度,得到各个所述用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度。


4.如权利要求3所述的标准发音生成方法,其特征在于,所述维数转换音频特征向量通过以下公式获取:



其中:--t时刻的维数转换音频特征向量;

--t时刻的用户音频帧特征向量;

--第一维数转换矩阵。


5.如权利要求4所述的标准发音生成方法,其特征在于,所述维数转换身份特征向量通过以下公式获取:



其中:--第n个维数转换身份特征向量;

--第n个基准身份特征向量;

--第二维数转换矩阵。


6.如权利要求5所述的标准发音生成方法,其特征在于,所述关联度通过以下公式获取:



其中:--t时刻的用户音频帧特征向量与第n个基准身份特征向量的关联度;

--t时刻的维数转换音频特征向量;

--第n个维数转换身份特征...

【专利技术属性】
技术研发人员:汪光璟杨嵩李成飞
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1