基于语音迁移学习的亲子故事个性化音频生成系统及方法技术方案

技术编号：28424840 阅读：27 留言：0更新日期：2021-05-11 18:33

本发明专利技术提供基于语音迁移学习的亲子故事个性化音频生成系统，包括：音频上传模块，用于将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，音频数据分别对应带有相应的用户标识；数据存储模块，用于根据用户标识，存储音频数据至对应用户标识的语音数据库中；数据处理模块，用于将语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；迁移训练模块，用于将数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；声音合成模块，用于将亲子故事\教学内容输入至迁移模型中，通过迁移模型合成基于用户个性化声音的故事\教学音频。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音迁移学习的亲子故事个性化音频生成系统及方法
本专利技术设计自动语音识别技术中语音合成、个性化语音故事合成，尤其设计基于迁移学习的亲子讲故事声音克隆；主要用于亲子之间讲故事常用，促进孩子的学习兴趣。
技术介绍
语音识别是通过语音信号处理和模式识别让计算机能够自动识别和理解人类的口述语，随着语音识别技术的不断提高，机器对于语音信号的识别准确率也极大提升。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音合成是计算机接收到的文字信息转变为可以听得懂的、流畅的口语输出的技术。端到端的语音合成，可以直接利用录音文本和对应的语音数据对，进行模型训练，而无需过多的专家知识和专业处理能力，大大降低了进入语音合成领域的门槛，极大的促进了语音合成技术的进步。风格转换是最早来源于图像领域的概念，即：将一张图片的艺术风格应用到另外一张图片上。音频中的风格迁移，是通过设计模型结构，使得模型学习音频的声纹特征，从而将输入的音频声音特征迁移到种子模型中，合成基于用户声音的亲子讲故事音频集，为用户提供更优质的教育服务，提升孩子的学习兴趣，促进亲子情感和互动。
技术实现思路
本专利技术的目的在于提供基于迁移学习的亲子讲故事声音克隆系统，根据用户自身提供的给孩子讲故事的音频数据，解析用户声纹信息，利用风格迁移，快速合成基于用户声音的亲子故事音频，自动化生成个性化教学课程，提升孩子的学习兴趣，促进亲子情感和互动。本申请提供一种基于语音...

【技术保护点】
1.一种基于语音迁移学习的亲子故事个性化音频生成系统，其特征在于，包含以下模块：/n音频上传模块，用于将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，上传的音频数据分别对应带有相应的用户标识；/n数据存储模块，用于根据所述用户标识，存储所述音频数据至对应所述用户标识的语音数据库中；/n数据处理模块，用于将所述语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；/n迁移训练模块，用于将所述数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；/n声音合成模块，用于将亲子故事\教学内容输入至所述迁移模型中，通过所述迁移模型合成基于用户个性化声音的故事\教学音频。/n

【技术特征摘要】
20191231 CN 20191141338341.一种基于语音迁移学习的亲子故事个性化音频生成系统，其特征在于，包含以下模块：
音频上传模块，用于将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，上传的音频数据分别对应带有相应的用户标识；
数据存储模块，用于根据所述用户标识，存储所述音频数据至对应所述用户标识的语音数据库中；
数据处理模块，用于将所述语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；
迁移训练模块，用于将所述数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；
声音合成模块，用于将亲子故事\教学内容输入至所述迁移模型中，通过所述迁移模型合成基于用户个性化声音的故事\教学音频。

2.根据权利要求1所述的系统，其特征在于，所述音频上传模块，包括：
匹配子模块，用于将用户输入用户名和密码与指定信息相匹配；
上传子模块，用于当所述用户输入用户名和密码与指定信息相匹配之后，将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。

3.根据权利要求2所述的系统，其特征在于，所述数据存储模块，包括：
查询子模块，用于根据所述用户标识，在音频数据库中查询所述用户标识对应的数据表；
存储子模块，用于将上传的音频数据存储至其对应的用户标识对应的数据表中。

4.根据权利要求3所述的系统，其特征在于，所述数据处理模块，包括：
下载子模块，用于将用户的音频数据从音频数据库下载；
预处理子模块，用于将从音频数据库下载的用户的音频数据进行预处理，所述预处理包括：降噪、语音增强、音频采样、分句处理、音频转化文字处理。

5...

【专利技术属性】
技术研发人员：黄元忠，卢庆华，魏静，
申请(专利权)人：深圳市木愚科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人