一种基于空耳文本的音乐检索方法技术

技术编号：27393950 阅读：30 留言：0更新日期：2021-02-21 14:03

本发明专利技术公开了一种基于空耳文本的音乐检索方法，该方法首先将空耳文本进行罗马化的操作，使之变成一个同一标准的编码，随后采用了一个TextToHumming框架，该框架采用WaveNet作为声码器，并且在输入进WaveNet之前，通过一个编码器，捕获文本之间的高阶映射。通过该框架，通过将空耳的文本转换成相应的音乐哼唱片段。然后我们改进了现有的DTW算法，为DTW算法添加了浮动系数，使之更加适用通过空耳文本生成的哼唱音乐的检索。通过以上方法，解决了目前通过空耳寻找歌曲难度大的问题。过空耳寻找歌曲难度大的问题。过空耳寻找歌曲难度大的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于空耳文本的音乐检索方法

[0001]本专利技术属于数据检索
，特别涉及一种基于空耳文本的音乐检索方法。

技术介绍

[0002]随着数字音乐的普及，在大型数字音乐数据库中搜索所需的音乐需要高效的索引和检索工具。传统的音乐检索系统中，通常都有按照标题或者歌手检索音乐。在基于内容的音乐检索系统中，歌唱/哼唱查询是一种具有代表性的方便、智能的方法。它可以用于根据用户哼唱的音乐旋律检索没有歌手姓名和歌曲标题的音乐文件。但是由于找歌者的心理因素或者是歌唱水平限制，歌唱/哼唱查询并不能满足找歌者的需求，反观在网络上存在着大量的找歌者通过空耳文本来求助网络，寻找自己想要的歌曲。但是，除了找歌者刚好听过这首歌，几乎很难从庞大的音乐数据库中查询相关曲目。故研究出一个通过空耳来寻找音乐的方法是非常有必要的。

技术实现思路

[0003]本专利技术提供一种基于空耳文本的音乐检索方法，模型基于WaveNet声码器和DTW 算法，主要解决找歌者的心理因素或者是歌唱水平限制，歌唱/哼唱查询并不能满足找歌者的需求，反观在网络上存在着大量的找歌者通过空耳文本来求助网络，寻找自己想要的歌曲。但是空耳文本的模糊性导致很难从庞大的音乐数据库中找到该歌曲问题，本专利提供一种基于空耳文本的音乐检索方法，操作过程基于编码器和 WaveNet的TextToHumming框架，该框架由一个编码器和一个WaveNet声码器组成,具体步骤如下，其特征在于：
[0004]1)将空耳文本进行罗马化的操作，使之变成一个...

【技术保护点】

【技术特征摘要】
1.一种基于空耳文本的音乐检索方法，操作过程基于编码器和WaveNet的TextToHumming框架，该框架由一个编码器和一个WaveNet声码器组成,具体步骤如下，其特征在于：1)将空耳文本进行罗马化的操作，使之变成一个同一标准的编码随后采用了一个TextToHumming框架，该框架采用WaveNet作为声码器，并且在输入进WaveNet之前，通过一个编码器，捕获文本之间的高阶映射，通过该框架，通过将空耳的文本转换成相应的音乐哼唱片段，具体算法流程如下：11)获取空耳文本，如果空耳文本为统一标准，则不需要对该空耳文本进行处理，否则将其进行罗马化处理，将其转换为拉丁字符；12)通过对拉丁字符进行处理，转换成输入矩阵X；13)对WaveNet的输出进行缩放，缩放采用μ-law压缩变换，将输出的波形的值压缩至可接受的范围，设将输出值压缩至K，采用以下函数对输出进行压缩：其中y
t
为原本输出的一个分量，其范围为-1<y
t
＜1；14)编码器采用KL loss作为损失函数，定义如下，设Y为原始输出，设Y'为预测值，则损失函数的表达式为：15)WaveNet声码器除了输入层的大小变为编码器的输出大小，网络的架构采用WaveNet采用原始的架构和损失函数，即网络扩张率为2k，其中K表示网络处于第几层，卷积核的大小为3.除此之外，每个残差层都包含一个ReLu非线性激活函数；16)将预测值通过μ-law逆变换转换为哼唱音频；2)进行哼唱检索算法，为DTW算法添加了浮动系数，使之更加适用通过空耳文本生成的哼唱音乐的检索，具体算法流程如下：21)假设D是一组音乐的时间序列的数据库，即D＝{X1,X2,...,X
N
}，其中N为该音乐数据库的大小；22)假设X＝{x1,x2,....,x
n
}表示一个音乐的时间序列，其中n表示音乐序列的大小。设X[s:t]＝{x
s
,x
s+1
,....,x
t
},其中s≥1且t≤n，其中x
s
是该集合的...

【专利技术属性】
技术研发人员：叶洪良，朱皖宁，
申请(专利权)人：金陵科技学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人