一种从语音到图像的生成方法及系统技术方案

技术编号:29308789 阅读:23 留言:0更新日期:2021-07-17 02:04
本发明专利技术公开一种从语音到图像的生成方法及系统,涉及人工智能技术领域,方法包括:获取训练数据集;训练数据集包括中文语料库和Oxford

【技术实现步骤摘要】
一种从语音到图像的生成方法及系统


[0001]本专利技术涉及人工智能
,特别是涉及一种从语音到图像的生成方法及系统。

技术介绍

[0002]随着大数据、人工智能的不断发展,传统领域的大数据化、智能化将是一个必然的发展趋势,而在众多的传统领域中,教育行业的特征与人工智能的契合度非常高。人工智能与教育的结合点就是和教师成为合作伙伴。人工智能已经普遍应用于教育,不同的工具可以运用于教育的不同领域。随着人工智能教育解决方案的不断成熟,人们希望人工智能可以帮助填补学习和教学方面的需求空白,让学校和教师比以往任何时候都更有效率。研究人工智能在智慧教育中的应用,通过将课程、学生、教师和环境的有效结合,构建符合人工智能教育需求的生态模式,可以实现高效的智能课堂。人工智能可以提供高效率、个性化和简约化的管理任务,使教师有时间去从事进一步研究。通过这种最佳合作属性,人工智能在教育中的愿景是和教师共同努力,为学生带来最佳结果。由于今天的学生需要在未来工作中运用人工智能,所以让学生接触并学习人工智能也是很重要的。
[0003]在小学阶段,学生的自律能力往往比较差,研发课程时就应充分考虑如何激发学生的学习兴趣。例如可以在授课时通过有趣的故事进行情景引入,在知识点讲授环节则要注意内容不宜过多,每节课不应超过三个知识点;连续进行知识讲授的时间不宜超过15分钟,否则孩子们很难有足够的耐心听下去,同时设计紧扣知识点并且参与感与趣味性都比较强的课堂互动环节让孩子们更容易地接受和掌握知识内容。根据小学生认知发展规律,直观图像比抽象想象更适合小学生的课堂学习,但是,现在的小学科学课程仍处于传统的课堂教学中,并且在偏远的农村地区,他们面临着实验设备缺乏和教师科学素养不高的问题。因此,为了更好的实现认知教育,如果可以将课堂上教师教学时的语音描述转换为逼真的图像,即从课堂语音转换为符合语义的图片,从而将非书面语言以图像的形式表现出来,必然能够激发学生的学习兴趣,实现高效的、生动的智能课堂。基于此,本领域亟需一种从语音到图像的生成方法及系统,以解决无法将课堂上教师教学时的语音信号转换为图像的问题。

技术实现思路

[0004]本专利技术的目的是提供一种从语音到图像的生成方法及系统,能够实现将课堂上教师教学时的语音信号转换为图像。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种从语音到图像的生成方法,所述方法包括:
[0007]获取训练数据集;所述训练数据集包括中文语料库和Oxford

102flowers数据集;
[0008]对所述中文语料库进行预处理,得到语谱图;
[0009]利用所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到
端卷积神经网络模型;
[0010]利用所述Oxford

102flowers数据集对深度卷积生成对抗网络模型进行训练和优化,得到优化后的深度卷积生成对抗网络模型;
[0011]获取教师教学时的语音信号;
[0012]对所述语音信号进行所述预处理,得到教学语谱图;
[0013]将所述教学语谱图输入所述优化后的端到端卷积神经网络模型中,得到教学文本;
[0014]将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中,生成教学图像。
[0015]可选地,所述对所述中文语料库进行预处理,得到语谱图,具体包括:
[0016]对所述中文语料库进行分帧操作,得到多个短时的语音段;
[0017]对每一所述语音段分别进行加窗操作,得到加窗后的各语音段;
[0018]对所述加窗后的各语音段分别进行快速傅立叶变换,得到各语音段的频谱;
[0019]对各语音段的频谱进行叠加,得到语谱图。
[0020]可选地,所述利用所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到端卷积神经网络模型,具体包括:
[0021]采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到端卷积神经网络模型。
[0022]可选地,所述将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中,生成教学图像,具体包括:
[0023]将所述教学文本与随机噪声共同输入所述优化后的深度卷积生成对抗网络模型中,通过所述优化后的深度卷积生成对抗网络模型生成与所述教学文本语义一致的教学图像。
[0024]本专利技术还提供了如下方案:
[0025]一种从语音到图像的生成系统,所述系统包括:
[0026]训练数据集获取模块,用于获取训练数据集;所述训练数据集包括中文语料库和Oxford

102flowers数据集;
[0027]预处理模块,用于对所述中文语料库进行预处理,得到语谱图;
[0028]第一训练和优化模块,用于利用所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到端卷积神经网络模型;
[0029]第二训练和优化模块,用于利用所述Oxford

102flowers数据集对深度卷积生成对抗网络模型进行训练和优化,得到优化后的深度卷积生成对抗网络模型;
[0030]语音信号获取模块,用于获取教师教学时的语音信号;
[0031]语音信号预处理模块,用于对所述语音信号进行所述预处理,得到教学语谱图;
[0032]教学文本生成模块,用于将所述教学语谱图输入所述优化后的端到端卷积神经网络模型中,得到教学文本;
[0033]教学图像生成模块,用于将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中,生成教学图像。
[0034]可选地,所述预处理模块,具体包括:
[0035]分帧单元,用于对所述中文语料库进行分帧操作,得到多个短时的语音段;
[0036]加窗单元,用于对每一所述语音段分别进行加窗操作,得到加窗后的各语音段;
[0037]傅立叶变换单元,用于对所述加窗后的各语音段分别进行快速傅立叶变换,得到各语音段的频谱;
[0038]频谱叠加单元,用于对各语音段的频谱进行叠加,得到语谱图。
[0039]可选地,所述第一训练和优化模块,具体包括:
[0040]训练和优化单元,用于采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到端卷积神经网络模型。
[0041]可选地,所述教学图像生成模块,具体包括:
[0042]教学图像生成单元,用于将所述教学文本与随机噪声共同输入所述优化后的深度卷积生成对抗网络模型中,通过所述优化后的深度卷积生成对抗网络模型生成与所述教学文本语义一致的教学图像。
[0043]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0044]本专利技术公开的从语音到图像的生成方法及系统,将自然语音经过预处理,然后通过端到端卷积神经网络模型生成语音对应的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种从语音到图像的生成方法,其特征在于,所述方法包括:获取训练数据集;所述训练数据集包括中文语料库和Oxford

102flowers数据集;对所述中文语料库进行预处理,得到语谱图;利用所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到端卷积神经网络模型;利用所述Oxford

102flowers数据集对深度卷积生成对抗网络模型进行训练和优化,得到优化后的深度卷积生成对抗网络模型;获取教师教学时的语音信号;对所述语音信号进行所述预处理,得到教学语谱图;将所述教学语谱图输入所述优化后的端到端卷积神经网络模型中,得到教学文本;将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中,生成教学图像。2.根据权利要求1所述的从语音到图像的生成方法,其特征在于,所述对所述中文语料库进行预处理,得到语谱图,具体包括:对所述中文语料库进行分帧操作,得到多个短时的语音段;对每一所述语音段分别进行加窗操作,得到加窗后的各语音段;对所述加窗后的各语音段分别进行快速傅立叶变换,得到各语音段的频谱;对各语音段的频谱进行叠加,得到语谱图。3.根据权利要求1所述的从语音到图像的生成方法,其特征在于,所述利用所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到端卷积神经网络模型,具体包括:采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化,得到优化后的端到端卷积神经网络模型。4.根据权利要求1所述的从语音到图像的生成方法,其特征在于,所述将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中,生成教学图像,具体包括:将所述教学文本与随机噪声共同输入所述优化后的深度卷积生成对抗网络模型中,通过所述优化后的深度卷积生成对抗网络模型生成与所述教学文本语义一致的教学图像。5.一种从语音到图像的生成系统,其特征在于,所述系统包括:训练数据集获取模块,用...

【专利技术属性】
技术研发人员:杨鸿武陈思成
申请(专利权)人:西北师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1