一种由图像生成音乐的方法及相关装置制造方法及图纸

技术编号：32544902 阅读：11 留言：0更新日期：2022-03-05 11:42

本发明专利技术公开一种由图像生成音乐的方法及相关装置，该方法的过程包括：获取图像，采用卷积和循环神经网络组合的方法，由有卷积对该图像进行编码，用循环神经网络进行解码，从而生成音乐。本发明专利技术采用深度学习卷积和循环神经网络结合的方法，实现了从图像生成音乐的方法，模仿人们看到图像，耳边产生音乐的触景生情的情景。情景。情景。

全部详细技术资料下载

【技术实现步骤摘要】
一种由图像生成音乐的方法及相关装置

[0001]本专利技术属于图像处理
，具体涉及一种由图像生成音乐的方法及相关装置，尤其是涉及一种基于深度学习的生成音乐的方法。

技术介绍

[0002]大多情况下，人们看到一副图像时，脑海中会产生一种情绪，仿佛听到了一段音乐。用触景生情来表述，更合适不过了。用算法生成音乐领域中，通常有以下两种方法：一、基于规则与音乐乐理知识相结合的方法，例如勋伯格的十二音体系作为算法规则生成音乐的方法。二、机器学习和神经网络的方法，也是当前比较热门的方法。传统机器学习的方法主要基于统计学的方法。目前利用人工智能生成音乐的方法中，大多基于循环神经网络，对音乐数据的训练产生，而无法对一副图像产生音乐的表述。

技术实现思路

[0003]为了解决现有技术中存在的问题，本专利技术的目的在于提出一种由图像生成音乐的方法及相关装置，本专利技术通过对图像进行数据处理，得到一段音乐。
[0004]本专利技术采用的技术方案如下：
[0005]一种由图像生成音乐的方法，其特征在于，包括如下过程：
[0006]将图像通过卷积生成向量编码；
[0007]将所述向量编码用已训练好的循环神经网络进行解码，从而生成音乐。
[0008]优选的，向量编码格式为78维one
‑
hot格式的数据。
[0009]优选的，循环神经网络在训练时，采用足够的音乐数据集对循环神经网络进行训练，获得训练好的循环神经网络，并保存该循环神经网络结构和权重系数。
>[0010]本专利技术还提供了一种由图像生成音乐的系统，包括：
[0011]编码模块：用于将图像通过卷积生成向量编码；
[0012]解码模块：用于将所述向量编码用已训练好的循环神经网络进行解码，从而生成音乐。
[0013]优选的，编码模块用于将图像通过卷积生成向量编码格式为78维one
‑
hot格式的数据。
[0014]优选的，编码模块包括依次相接的卷积层、池化层、激活函数和全连接层。
[0015]优选的，解码模块包括依次串联的多个卷积层和多个LSTM长短时记忆网络，多个LSTM长短时记忆网络中，从第二个LSTM长短时记忆网络至最后一个LSTM长短时记忆网络，均连接softmax回归函数。
[0016]优选的，本专利技术由图像生成音乐的系统，还包括：
[0017]图像获取模块：用于获取单张图像。
[0018]本专利技术还提供了一种电子设备，包括：
[0019]一个或多个处理器；
[0020]存储装置，其上存储有一个或多个程序；
[0021]当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的由图像生成音乐的方法。
[0022]本专利技术还提供了一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上所述的由图像生成音乐的方法。
[0023]本专利技术具有如下有益效果：
[0024]本专利技术通过将采集的图像通过卷积生成向量编码；将向量编码用已训练好的循环神经网络进行解码，从而生成音乐。与现有技术相比，本专利技术采用深度学习卷积和循环神经网络结合的方法，实现了从图像生成音乐的方法，模仿人们看到图像，耳边产生音乐的触景生情的情景。
附图说明
[0025]图1为本专利技术实例方法的流程图；
[0026]图2为本专利技术实例图像生成音乐的神经网络图；
[0027]图3为本专利技术实施例由图像生成音乐的系统的示意图；
[0028]图4为本专利技术实施例电子设备的示意图。
具体实施方式
[0029]下面通过具体实例对本专利技术方法及技术进行说明。
[0030]参照图1，本专利技术由图像生成音乐的方法通过一下技术方案来实现：
[0031]其过程包括：获取单张图像，采用卷积和循环神经网络的方法，将图像通过卷积生成向量编码，然后将该向量编码传入训练好的循环神经网络，从而生成一段音乐，解决了现有技术中无法”触景生情”的问题。
[0032]其中，为了获得用于由图像生成音乐的循环神经网络，首先需要采用足够的音乐数据集，利用音乐数据集训练获得有效的循环神经网络模型，并保存该网络结构和权重系数，作为图像生成音乐的重要组成部分，为了训练可靠的神经网络，可通过以下步骤：
[0033]步骤1：收集音乐数据，将MP3格式的音乐数据进行处理，对每个时间步中的音乐进行78维的one
‑
hot编码。
[0034]步骤2：将音乐数据随机抽取40个片段为一组用于模型训练。
[0035]步骤3：训练完成后的循环神经网络，保存该网络系统的权重系数，可用于生成音乐。
[0036]本专利技术中，对于图像编码部分，通过卷积层、池化层、全连接层、回归层处理后，得到one
‑
hot编码数据。
[0037]进一步的，参照图2和图3，本专利技术提供了一种由图像生成音乐的系统，该系统整体上包括图像编码和循环网络解码两部分，具体如下：
[0038]图像编码部分采用编码模块：该模块用于将图像通过卷积生成向量编码；
[0039]循环网络解码两部采用解码模块：该模块用于将所述向量编码用已训练好的循环神经网络进行解码，从而生成音乐。
[0040]进一步的，参照图3，本专利技术由图像生成音乐的系统还包括图像获取模块：用于获
取单张图像。图像获取模块可采用摄像头，摄像头将获取的图像传输给编码模块，编码模块对图像进行编码后将得到的向量编码传输给解码模块进行解码，解码模块将向量编码解码后即可获得一端美妙的音乐，让人产生触景生情的感觉。
[0041]进一步的，参照2，本专利技术的图像编码部分由卷积层、池化层、全连接层、回归函数构成。循环网络解码部分，由LSTM长短时记忆网络和回归函数构成，如图2所示，循环网络解码部分由多个卷积层和LSTM组成，两部分网络串联，保证了图像到音乐的转换。循环网络解码时，由图像的编码进行输入，由LSTM进行循环输出音乐。
[0042]进一步的，参照图4，本专利技术提供的电子设备包括：一个处理器；一个存储装置，其上存储有程序；当所述程序被所述处理器执行时，使得所述处理器实现本专利技术如上所述的由图像生成音乐的方法。该电子设备可以为具有摄像头的移动或者固定终端。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种由图像生成音乐的方法，其特征在于，包括如下过程：将图像通过卷积生成向量编码；将所述向量编码用已训练好的循环神经网络进行解码，从而生成音乐。2.根据权利要求1所述的一种由图像生成音乐的方法，其特征在于，向量编码格式为78维one
‑
hot格式的数据。3.根据权利要求1所述的一种由图像生成音乐的方法，其特征在于，循环神经网络在训练时，采用足够的音乐数据集对循环神经网络进行训练，获得训练好的循环神经网络，并保存该循环神经网络结构和权重系数。4.一种由图像生成音乐的系统，其特征在于，包括：编码模块：用于将图像通过卷积生成向量编码；解码模块：用于将所述向量编码用已训练好的循环神经网络进行解码，从而生成音乐。5.根据权利要求4所述的一种由图像生成音乐的系统，其特征在于，编码模块用于将图像通过卷积生成向量编码格式为78维one
‑
hot格式的数据。6.根据权利要求4所述的...

【专利技术属性】
技术研发人员：杨玉，卢爱芬，
申请(专利权)人：广州科技职业技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人