基于智能朗读亭的音频生成方法、装置、设备及存储介质制造方法及图纸

技术编号:35081547 阅读:14 留言:0更新日期:2022-09-28 11:50
本发明专利技术涉及人工智能领域,公开了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质,用于实现智能朗读亭的音频转换并提高音频的音频质量。所述方法包括:基于智能朗读亭采集目标朗读者的待处理音频,并对待处理音频进行音频特征提取和文本数据转换,得到音频朗读特征和文本朗读数据;将文本朗读数据输入音频转换模型中的特征提取网络进行文本特征提取,得到文本朗读特征;对文本朗读特征与音频朗读特征进行特征整合,得到目标朗读特征;将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换,得到目标朗读音频;对目标朗读音频和目标朗读者进行身份信息绑定,并对目标朗读音频进行关联存储。目标朗读音频进行关联存储。目标朗读音频进行关联存储。

【技术实现步骤摘要】
基于智能朗读亭的音频生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种基于智能朗读亭的音频生成方法、装置、设备及存储介质。

技术介绍

[0002]随着物联网行业的高速发展,智能朗读亭应运而生。智能朗读亭是一种以朗读、阅读、作品分享为一体的智能教育设备,可高效提升朗读者的语文素养与语言表达能力,辅助提高学校教学水平。
[0003]但是目前智能朗读亭的音频质量不好,其原因主要是智能朗读亭本身的收音效果不佳,或者是因为说话人发音不标准,导致智能朗读亭收集到的音频质量较低。

技术实现思路

[0004]本专利技术提供了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质,用于实现智能朗读亭的音频转换并提高音频的音频质量。
[0005]本专利技术第一方面提供了一种基于智能朗读亭的音频生成方法,所述基于智能朗读亭的音频生成方法包括:基于预置的智能朗读亭采集目标朗读者的待处理音频,并对所述待处理音频进行音频特征提取和文本数据转换,得到音频朗读特征和文本朗读数据;将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取,得到所述文本朗读数据对应的文本朗读特征;对所述文本朗读特征与所述音频朗读特征进行特征整合,得到所述待处理音频对应的目标朗读特征;将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换,得到所述待处理音频对应的目标朗读音频;对所述目标朗读音频和所述目标朗读者进行身份信息绑定,并对所述目标朗读音频进行属性提取,得到目标属性数据,以及根据所述目标属性数据对所述目标朗读音频进行关联存储。
[0006]可选的,在本专利技术第一方面的第一种实现方式中,所述基于预置的智能朗读亭采集目标朗读者的待处理音频,并对所述待处理音频进行音频特征提取和文本数据转换,得到音频朗读特征和文本朗读数据,包括:基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频;对所述待处理音频进行梅尔频谱转换,得到目标梅尔频谱;对所述目标梅尔频谱进行音频人声特征提取,得到音频朗读特征;调用预置的自然语言处理模型对所述待处理音频进行文本识别,得到识别文本数据;基于所述智能朗读亭获取所述待处理音频对应的标准文本数据;对所述识别文本数据和所述标准文本数据进行文本核验,生成文本朗读数据。
[0007]可选的,在本专利技术第一方面的第二种实现方式中,所述将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取,得到所述文本朗读数据对应的文本朗读特征,包括:将所述文本朗读数据输入预置音频转换模型中的特征提取网络,其中,所述特征提取网络包括:输入层、三层卷积网络和双层门限循环网络;通过所述输入层对所述文本朗读数据进行向量编码,得到文本输入向量;通过所述三层卷积网络对所述文本输
入向量进行卷积运算,得到文本特征向量;通过所述双层门限循环网络对所述文本特征向量进行特征转换,得到所述文本朗读数据对应的文本朗读特征。
[0008]可选的,在本专利技术第一方面的第三种实现方式中,所述对所述文本朗读特征与所述音频朗读特征进行特征整合,得到所述待处理音频对应的目标朗读特征,包括:分别提取所述文本朗读特征与所述音频朗读进行原始特征提取,得到文本原始特征和音频原始特征;基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合,得到所述待处理音频对应的目标朗读特征。
[0009]可选的,在本专利技术第一方面的第四种实现方式中,所述将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换,得到所述待处理音频对应的目标朗读音频,包括:将所述目标朗读特征输入所述音频转换模型中的音频生成网络,其中,所述音频生成网络包括:双层长短时记忆网络、两层全连接网络和输出层;通过所述双层长短时记忆网络对所述目标朗读特征进行特征编码,得到目标编码特征;通过所述两层全连接网络对所述目标编码特征进行特征运算,得到特征运算信息;将所述特征运算信息输入所述输出层进行音频转换,得到所述待处理音频对应的目标朗读音频。
[0010]可选的,在本专利技术第一方面的第五种实现方式中,所述对所述目标朗读音频和所述目标朗读者进行身份信息绑定,并对所述目标朗读音频进行属性提取,得到目标属性数据,以及根据所述目标属性数据对所述目标朗读音频进行关联存储,包括:基于所述智能朗读亭对所述目标朗读者进行身份信息查询,得到所述目标朗读者的身份信息;对所述目标朗读音频和所述身份信息进行绑定;对所述目标朗读音频进行属性提取,得到目标属性数据,其中,所述目标属性数据包括:朗读类型、朗读主题以及评价指标;根据所述目标属性数据对所述目标朗读音频进行关联存储。
[0011]可选的,在本专利技术第一方面的第六种实现方式中,所述基于智能朗读亭的音频生成方法还包括:接收用户输入的智能朗读亭点播请求,并根据所述智能朗读亭点播请求匹配待播放朗读音频;播放所述待播放朗读音频,并对所述待播放朗读音频进行评分,得到目标评分信息;根据所述目标评分信息生成朗读音频播放榜单。
[0012]本专利技术第二方面提供了一种基于智能朗读亭的音频生成装置,所述基于智能朗读亭的音频生成装置包括:采集模块,用于基于预置的智能朗读亭采集目标朗读者的待处理音频,并对所述待处理音频进行音频特征提取和文本数据转换,得到音频朗读特征和文本朗读数据;提取模块,用于将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取,得到所述文本朗读数据对应的文本朗读特征;整合模块,用于对所述文本朗读特征与所述音频朗读特征进行特征整合,得到所述待处理音频对应的目标朗读特征;转换模块,用于将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换,得到所述待处理音频对应的目标朗读音频;存储模块,用于对所述目标朗读音频和所述目标朗读者进行身份信息绑定,并对所述目标朗读音频进行属性提取,得到目标属性数据,以及根据所述目标属性数据对所述目标朗读音频进行关联存储。
[0013]可选的,在本专利技术第二方面的第一种实现方式中,所述采集模块具体用于:基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频;对所述待处理音频进行梅尔频谱转换,得到目标梅尔频谱;对所述目标梅尔频谱进行音频人声特征提取,得到音频朗读特征;调用预置的自然语言处理模型对所述待处理音频进行文本识别,得到识别
文本数据;基于所述智能朗读亭获取所述待处理音频对应的标准文本数据;对所述识别文本数据和所述标准文本数据进行文本核验,生成文本朗读数据。
[0014]可选的,在本专利技术第二方面的第二种实现方式中,所述提取模块具体用于:将所述文本朗读数据输入预置音频转换模型中的特征提取网络,其中,所述特征提取网络包括:输入层、三层卷积网络和双层门限循环网络;通过所述输入层对所述文本朗读数据进行向量编码,得到文本输入向量;通过所述三层卷积网络对所述文本输入向量进行卷积运算,得到文本特征向量;通过所述双层门限循环网络对所述文本特征向量进行特征转换,得到所述文本朗读数据对应的文本朗读特征。
[0015]可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能朗读亭的音频生成方法,其特征在于,所述基于智能朗读亭的音频生成方法包括:基于预置的智能朗读亭采集目标朗读者的待处理音频,并对所述待处理音频进行音频特征提取和文本数据转换,得到音频朗读特征和文本朗读数据;将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取,得到所述文本朗读数据对应的文本朗读特征;对所述文本朗读特征与所述音频朗读特征进行特征整合,得到所述待处理音频对应的目标朗读特征;将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换,得到所述待处理音频对应的目标朗读音频;对所述目标朗读音频和所述目标朗读者进行身份信息绑定,并对所述目标朗读音频进行属性提取,得到目标属性数据,以及根据所述目标属性数据对所述目标朗读音频进行关联存储。2.根据权利要求1所述的基于智能朗读亭的音频生成方法,其特征在于,所述基于预置的智能朗读亭采集目标朗读者的待处理音频,并对所述待处理音频进行音频特征提取和文本数据转换,得到音频朗读特征和文本朗读数据,包括:基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频;对所述待处理音频进行梅尔频谱转换,得到目标梅尔频谱;对所述目标梅尔频谱进行音频人声特征提取,得到音频朗读特征;调用预置的自然语言处理模型对所述待处理音频进行文本识别,得到识别文本数据;基于所述智能朗读亭获取所述待处理音频对应的标准文本数据;对所述识别文本数据和所述标准文本数据进行文本核验,生成文本朗读数据。3.根据权利要求1所述的基于智能朗读亭的音频生成方法,其特征在于,所述将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取,得到所述文本朗读数据对应的文本朗读特征,包括:将所述文本朗读数据输入预置音频转换模型中的特征提取网络,其中,所述特征提取网络包括:输入层、三层卷积网络和双层门限循环网络;通过所述输入层对所述文本朗读数据进行向量编码,得到文本输入向量;通过所述三层卷积网络对所述文本输入向量进行卷积运算,得到文本特征向量;通过所述双层门限循环网络对所述文本特征向量进行特征转换,得到所述文本朗读数据对应的文本朗读特征。4.根据权利要求1所述的基于智能朗读亭的音频生成方法,其特征在于,所述对所述文本朗读特征与所述音频朗读特征进行特征整合,得到所述待处理音频对应的目标朗读特征,包括:分别提取所述文本朗读特征与所述音频朗读进行原始特征提取,得到文本原始特征和音频原始特征;基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合,得到所述待处理音频对应的目标朗读特征。5.根据权利要求1所述的基于智能朗读亭的音频生成方法,其特征在于,所述将所述目
标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换,得到所述待处理音频对应的目标朗读音频,包括:将所述目标朗读特征输入所述音频转换模型中的音频生成网络,其中,所述音频生成...

【专利技术属性】
技术研发人员:韩国玺刘可刘兴好
申请(专利权)人:深圳市星范儿文化科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1