基于深度神经网络的哼唱检索法制造技术

技术编号:24756569 阅读:38 留言:0更新日期:2020-07-04 09:15
基于深度神经网络的哼唱检索法,使用深度神经网络‑动态时间规整方法,很好地解决诸如语言建模这样的问题,卷积神经网络应用于声学建模的自动语音识别,在辨识准确率和速度上有一定的提升;动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。

Humming retrieval method based on deep neural network

【技术实现步骤摘要】
基于深度神经网络的哼唱检索法
本专利技术属于数字信号处理领域,尤其涉及一种基于深度神经网络的哼唱检索法。
技术介绍
目前以哼唱搜索为主的研究包括了:音高追踪(PitchTracking)和辨识算法两个部分。1音高追踪(PitchTracking)计算音高的方法有很多,主要分为基于时域(TimeDomain)和频域(FrequencyDomain)两大类,其中时域的方法主要有自相关函数法(AutocorrelationFunction,ACF)、归一化平方差函数法(NormalizedSquaredDifferenceFunction,NSDF)、短时平均幅度差函数法(AverageMagnitudeDifferenceFunction,AMDF)、简易反向滤波跟踪法(SimplifiedInverseFilterTracking,SIFT),而频域方法主要包括调和乘积谱方法(HarmonicProductSpectrum,HPS)和倒频谱方法(Cepstrum)。2辨识算法动态时间规整(DynamicTimeWa本文档来自技高网...

【技术保护点】
1.基于深度神经网络的哼唱检索法,其特征在于:具体内容如下:/n1 MIDI资料库音频资料解析/n资料库是由 MIDI 格式的音乐组成的,其经过解析后所得到的信息是 [音符 1 的音高,音符 1 的音长,音符 2 的音高,音符 2 的音长,……,音符 N 的音高,音符 N 的音长],可以表示为[𝑛

【技术特征摘要】
1.基于深度神经网络的哼唱检索法,其特征在于:具体内容如下:
1MIDI资料库音频资料解析
资料库是由MIDI格式的音乐组成的,其经过解析后所得到的信息是[音符1的音高,音符1的音长,音符2的音高,音符2的音长,……,音符N的音高,音符N的音长],可以表示为[𝑛1,𝑑1,𝑛2,𝑑2,…,𝑛𝑁,𝑑𝑁,];如果两个相邻音符音高相同仍会视为两个独立的音符;
将音高音长的序列展开,再依据它们各自的音长加以展开,将音长数作为展开音高个数,采用将MIDI资料完全展开的方式处理,以便于后期动态时间规整算法的比较辨别;
2从用户哼唱歌曲中追踪高音并对深度神经网络进行训练
用户哼唱后所录制的wav档案,必须经由音高追踪系统计算出声音信号的音高,运用半音差(semitone)概念,半音差是音乐中音符表示的一种标准,其与频率有一定的转换关系,如公式(1-1)所示



半音差是为了后期的辨识系统进行比对所采用的统一标准,如60就是钢琴键当中的中央Do,也就是C4;在钢琴键上,包含黑键,每一个相邻的键就是相差一个半音,其音高差距称为半音差;举例来说,若是[60,64,67]就是[Do,Mi,So],经由半音的组合,加上每个音符的音长不同,在两者之中加以变化,就可以组成各式各样的美妙的旋律;
用户的哼唱音频文件都是时长8秒的单声道音频,在放入深度神经网络中进行处理之前,需要做以下预处理:
首先,对音频数据进行以0.032秒为单位的无重叠的应用汉明窗(hanning)的加窗分帧,这样8秒的哼唱音频即会得到250个采样窗数据;
其次,把得到的每一帧数据分别进行快速傅里叶变换(FastFouriTransform,FFT),这样就得到了这一帧频谱(Spectrum),进而做对数运算以得到其对数谱(LogarithmicSpectrum),因为以0.032秒为窗长,故而此处得到的数据是在0到2000赫兹范围内以31.25赫兹为单位进行步进的65个采样数据;
再次,对得到的每帧的对数谱的65个数据进行归一化,将其归一到[-1,1]区间内以便于后期作为深度神经网络的输入数据;
最后,在按照以上方法操作后得到250组数据,为了降低每一组采样的不确定性带来的错误,将每相邻的5组数据进行整合,设五组数据分别为[𝑎1,…,𝑎65],[𝑏1,…,𝑏65],[𝑐1,…,𝑐65],[𝑑1,…,𝑑65],[𝑒1,…,𝑒65],则按照对应位置穿插的方式进行整合后的数据为[𝑎1,𝑏1,𝑐1,𝑑1,𝑒1…,𝑎65,𝑏65,𝑐65,𝑑65,𝑒65],这样就获得了246组325维的数据;
针对每一帧的数据,获了通过人工的方式进行标注的音高,音高的分布范围为[35,85],即51个音高,再加...

【专利技术属性】
技术研发人员:王建荣向坤于健喻梅于瑞国徐天一赵满坤高洁薛寒钰
申请(专利权)人:天津大学青岛海洋技术研究院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1