基于智能朗读亭的音频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：35081547 阅读：14 留言：0更新日期：2022-09-28 11:50

本发明专利技术涉及人工智能领域，公开了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质，用于实现智能朗读亭的音频转换并提高音频的音频质量。所述方法包括：基于智能朗读亭采集目标朗读者的待处理音频，并对待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将文本朗读数据输入音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读特征；对文本朗读特征与音频朗读特征进行特征整合，得到目标朗读特征；将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到目标朗读音频；对目标朗读音频和目标朗读者进行身份信息绑定，并对目标朗读音频进行关联存储。目标朗读音频进行关联存储。目标朗读音频进行关联存储。

全部详细技术资料下载

【技术实现步骤摘要】
基于智能朗读亭的音频生成方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种基于智能朗读亭的音频生成方法、装置、设备及存储介质。

技术介绍

[0002]随着物联网行业的高速发展，智能朗读亭应运而生。智能朗读亭是一种以朗读、阅读、作品分享为一体的智能教育设备，可高效提升朗读者的语文素养与语言表达能力，辅助提高学校教学水平。
[0003]但是目前智能朗读亭的音频质量不好，其原因主要是智能朗读亭本身的收音效果不佳，或者是因为说话人发音不标准，导致智能朗读亭收集到的音频质量较低。

技术实现思路

[0004]本专利技术提供了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质，用于实现智能朗读亭的音频转换并提高音频的音频质量。
[0005]本专利技术第一方面提供了一种基于智能朗读亭的音频生成方法，所述基于智能朗读亭的音频生成方法包括：基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征；对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征；将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频；对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以...

【技术保护点】

【技术特征摘要】
1.一种基于智能朗读亭的音频生成方法，其特征在于，所述基于智能朗读亭的音频生成方法包括：基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征；对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征；将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频；对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储。2.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据，包括：基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频；对所述待处理音频进行梅尔频谱转换，得到目标梅尔频谱；对所述目标梅尔频谱进行音频人声特征提取，得到音频朗读特征；调用预置的自然语言处理模型对所述待处理音频进行文本识别，得到识别文本数据；基于所述智能朗读亭获取所述待处理音频对应的标准文本数据；对所述识别文本数据和所述标准文本数据进行文本核验，生成文本朗读数据。3.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征，包括：将所述文本朗读数据输入预置音频转换模型中的特征提取网络，其中，所述特征提取网络包括：输入层、三层卷积网络和双层门限循环网络；通过所述输入层对所述文本朗读数据进行向量编码，得到文本输入向量；通过所述三层卷积网络对所述文本输入向量进行卷积运算，得到文本特征向量；通过所述双层门限循环网络对所述文本特征向量进行特征转换，得到所述文本朗读数据对应的文本朗读特征。4.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征，包括：分别提取所述文本朗读特征与所述音频朗读进行原始特征提取，得到文本原始特征和音频原始特征；基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合，得到所述待处理音频对应的目标朗读特征。5.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述将所述目
标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频，包括：将所述目标朗读特征输入所述音频转换模型中的音频生成网络，其中，所述音频生成...

【专利技术属性】
技术研发人员：韩国玺，刘可，刘兴好，
申请(专利权)人：深圳市星范儿文化科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人