音频生成方法和装置、存储介质、电子设备制造方法及图纸

技术编号：21550121 阅读：54 留言：0更新日期：2019-07-06 22:48

本公开实施例公开了一种音频生成方法和装置、存储介质、电子设备，其中，方法包括：确定多个音素片段中每个音素片段对应的多个预选波形片段，所述多个音素片段通过待转换文本得到；对于每个所述音素片段，基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段；基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的音频波形。本公开实施例基于时长过滤获得的多个过滤波形片段，确定的目标音频波形更自然、更接近真人语音，提高了用户体验。

Audio Generation Method and Device, Storage Media and Electronic Equipment

全部详细技术资料下载

【技术实现步骤摘要】
音频生成方法和装置、存储介质、电子设备
本公开涉及语音技术，尤其是一种音频生成方法和装置、存储介质、电子设备。
技术介绍
随着智能化设备的普及以及语音识别技术的发展，人们的交互方式已经慢慢从传统的文本转向了更人性化的语音交互方式，语音交互属于更符合人类之间的交互方式，能够提高交互效率和用户体验。为了实现将文字交互转换为语音交互，可将文本信息通过语音合成技术转换为音频信息，语音合成技术能够让机器拥有发声的功能，改变了传统的文字交互方式。
技术实现思路
传统的语音合成技术主要基于隐马尔科夫链对声学特征进行建模，但这种方法并不能挑选时长较好的波形片段，使得拼接生成的音频存在不自然的问题。为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种音频生成方法和装置、存储介质、电子设备。根据本公开实施例的一个方面，提供的一种音频生成方法，包括：获得待转换文本对应的多个音素片段，确定所述多个音素片段中每个音素片段对应的多个预选波形片段；对于每个所述音素片段，预测所述音素片段的时长信息，基于所述时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对...

【技术保护点】
1.一种音频生成方法，包括：确定多个音素片段中每个音素片段对应的多个预选波形片段，所述多个音素片段通过待转换文本得到；对于每个所述音素片段，基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段；基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的音频波形。

【技术特征摘要】
1.一种音频生成方法，包括：确定多个音素片段中每个音素片段对应的多个预选波形片段，所述多个音素片段通过待转换文本得到；对于每个所述音素片段，基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段；基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的音频波形。2.根据权利要求1所述的方法，其中，所述基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段，包括：利用时长预测网络对所述音素片段进行时长预测，获得所述音素片段的时长信息；确定所述多个预选波形片段各自对应的时长信息，得到至少一个时长信息；确定所述多个预选波形片段各自对应的时长信息与所述音素片段的时长信息之间的差值，得到至少一个差值；基于所述至少一个差值，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段。3.根据权利要求2所述的方法，其中，所述基于所述至少一个差值，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段，包括：确定所述至少一个差值各自对应的差值绝对值，得到至少一个差值绝对值；按照所述至少一个差值绝对值的大小对所述多个预选波形片段进行排序；按序获得预设数量的预选波形片段，将所述预设数量的预选波形片段作为所述音素片段对应的多个过滤波形片段。4.根据权利要求1所述的方法，其中，所述基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的音频波形，包括：确定每个所述音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征；基于所述第一声学特征确定每个所述过滤波形片段的目标损失值；按照所述多个音素片段在所述待转换文本中的顺序，获得所述多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值；基于所述目标损失值和所述连接损失值，确定所述待转换文本对应的音频波形。5.根据权利要求4所述的方法，其中，所述确定每个所述音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征，包括：对所述多个过滤波形片段中每个过滤波形片段提取梅尔幅度谱系数；基于所述梅尔幅度谱系数确定每个所述过滤波形片段对应的第一声学特征。6.根据权利要求4所述的方法，其中，所述基于所述声学特征确定每个所述过滤波形片段的目标损失值，包括：利用目标神经网络分别对所述多个音素片段中的每个音素片段进行处理，获得每个所述音素片段的第二声学特征的均值和方差；基于所述第二声学特征的均值和方差、以及所述第一声学特征，获得每个所述过滤波形片段的目标损失值。7.根据权利要求4所述的方法，其中，所述按照所述多个音素片段在所述文本中的顺序，获得所述多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值，包括：按照所述多个音素片段在所述文本中的顺序，将所述每两个相邻音素片段作为一组音素片段组，得到至少一组所述音素片段组；基于所述音素片段组中一个音...

【专利技术属性】
技术研发人员：胡大盟，袁武文，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人