【技术实现步骤摘要】
音频数据的生成方法、装置、服务器和智能音箱
[0001]本说明书属于互联网
,尤其涉及音频数据的生成方法、装置、服务器和智能音箱。
技术介绍
[0002]在许多交互场景中,常常需要合成相应的音频数据,播放给用户。随着技术的发展,用户对于音频数据的合成有了越来越高的要求。
[0003]目前,亟需一种能够高效地生成质量相对较高、用户使用体验相对较好的音频数据的方法。
技术实现思路
[0004]本说明书提供了一种音频数据的生成方法、装置、服务器和智能音箱,以便能高效地生成质量相对较高、用户使用体验相对较好的音频数据。
[0005]本说明书提供的一种音频数据的生成方法、装置、服务器和智能音箱是这样实现的:
[0006]一种音频数据的生成方法,包括:获取目标文本,并对所述目标文本进行预处理,得到预处理后的目标文本,其中,所述预处理后的目标文本至少携带有标签信息;确定所述预处理后的目标文本中是否存在与预设的韵律短语缓存匹配的第一文本数据;其中,所述预设的韵律短语缓存中保存有多个预设韵律短语; ...
【技术保护点】
【技术特征摘要】
1.一种音频数据的生成方法,包括:获取目标文本,并对所述目标文本进行预处理,得到预处理后的目标文本,其中,所述预处理后的目标文本至少携带有标签信息;确定所述预处理后的目标文本中是否存在与预设的韵律短语缓存匹配的第一文本数据;其中,所述预设的韵律短语缓存中保存有多个预设韵律短语;在确定所述预处理后的目标文本中存在第一文本数据和第二文本数据的情况下,将所述预处理后的目标文本拆分成第一文本数据和第二文本数据;其中,所述第二文本数据包括预处理后的目标文本中与预设的韵律短语缓存不匹配的文本数据;从所述预设的音频数据缓存中检索到与所述第一文本数据匹配的预设音频数据作为第一音频数据,其中,所述预设的音频数据缓存中保存有与预设韵律短语对应的预设音频数据;根据所述第二文本数据,合成对应的音频数据作为第二音频数据;拼接所述第一音频数据和所述第二音频数据,得到目标文本的音频数据。2.根据权利要求1所述的方法,所述标签信息包括以下至少之一:韵律短语标记、音素信息标记、停顿标记、轻重音标记。3.根据权利要求2所述的方法,确定所述预处理后的目标文本中是否存在与预设的韵律短语缓存匹配的第一文本数据,包括:根据所述标签信息,将所述预处理后的目标文本拆分成多个目标韵律短语;计算所述多个目标韵律短语与所述预设的韵律短语缓存中的预设韵律短语之间的近似度;根据所述近似度,确定所述预处理后的目标文本中是否存在与预设的韵律短语缓存匹配的第一文本数据。4.根据权利要求3所述的方法,根据所述近似度,确定所述预处理后的目标文本中是否存在与预设的韵律短语缓存匹配的第一文本数据,包括:通过比较所述近似度和预设的近似度阈值,确定所述多个目标韵律短语中是否存在目标韵律短语与预设的韵律短语缓存中的预设韵律短语的近似度符合预设要求;在确定所述多个目标韵律短语中存在目标韵律短语与预设的韵律短语缓存中的预设韵律短语的近似度符合预设要求的情况下,确定所述预处理后的目标文本中存在目标韵律短语与预设的韵律短语缓存匹配,并将所述多个目标韵律短语中与预设的韵律短语缓存匹配的目标韵律短语,确定为所述第一文本数据。5.根据权利要求1所述的方法,所述多个预设韵律短语包括在第一预设时间段内出现频率大于预设的频率阈值的韵律短语。6.根据权利要求5所述的方法,所述预设的韵律短语缓存按照以下方式生成:获取第一语音合成记录,其中,所述第一语音合成记录中记录了在第一预设时间段内合成的历史音频数据,以及与所述历史音频数据对应的历史文本数据;从所述历史文本数据中提取出多个历史韵律短语;根据所述第一语音合成记录,统计所述多个历史韵律短语在第一预设时间段内合成历史音频数据过程中的出现频率;将出现频率大于预设的频率阈值的历史韵律短语,确定为预设韵律短语,并缓存所述预设韵律短语,得到所述预设的韵律短语缓存。
7.根据权利要求6所述的方法,从所述历史文本数据中提取出多个历史韵律短语,包括:从所述历史文本数据中提取出多个语句文本数据;对所述多个语句文本数据进行分词处理,得到多个分词;对所述多个分词分别进行韵律预测,得到多个分词的韵律预测结果;根据韵律预测结果,和所述多个分词,构建出多个历史韵律短语。8.根据权利要求1所述的方法,所述预设的音频数据缓存按照以下方式获取:获取所述预设的韵律短语缓存中所保存的多个预设韵律短语;利用预设的语音生成模型,生成并缓存与所述多个预设韵律短语分别对应的多个预设音频数据,以获得所述预设的音频数据缓存。9.根据权利要求8所述的方法,所述预设的语音生成模型包括:基于tacotron的端到端模型。10.根据权利要求9所述的方法,所述预设的语音生成模型按照以下方式建立:获取样本音频数据和与样本音频数据对应的样本文本数据,作为样本数据;标注所述样本数据,得到标注后的样本数据;建立基于tacotron的模型作为初始模型;利用所述标注后的样本数据训练所述初始模型,得到预设的语音生成模型。11.根据权利要求2所述的方法,根据所述第二文本数据,合成对应的音频数据作为第二音频数据,包括:根据所述标签信息,从预设的音库中筛选出匹配的音素数据;利用预设的声学模型对所述第二文本数据进行处理,确定出与第二文本数据的音频数据合成相关的参数数据;根据所述参数数据,组合所述多个音素数据,得到第二音频数据。12.根据权利要求1所述的方法,拼接所述第一音频数据和所述第二音频数据,得到目标文本的音频数据,包括:拼接所述第一音频数据和所述第二音频数据,得到第三音频数据;对所述第三音频数据进行平滑处理,得到目标文本的音频数据。13.根据权利要求1所述的方法,在确定所述预处理后的目标文本中是否存在与预设的韵律短语缓存匹配的第一文本数据后,所述方法还包括:在确定所述预处理后的目标文本中存在第一文本数据,且不存在第二文本数据的情况下,从所述预设的音频数据缓...
【专利技术属性】
技术研发人员:曹元斌,盖于涛,张斌,吴佳伦,
申请(专利权)人:菜鸟智能物流控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。