一种基于向量数据库的音频搜索方法技术

技术编号：41745908 阅读：37 留言：0更新日期：2024-06-21 21:32

本发明专利技术公开了一种基于向量数据库的音频搜索方法，向量数据库构建方法如下：S1、将原始音频转化为梅尔频谱的语谱图，再转换到对数刻度的语谱图；S2、将对数刻度语谱图进行压缩并二值化；S3、对二值化图像提取特征；S4、将特征向量与所对应的时间戳一起存入数据库；通过对所有待入库的音频进行步骤S1至步骤S4的处理，完成数据库的构建；进行音频搜索时，先将待匹配音频按照步骤S1至步骤S3进行处理，得到待匹配音频特征向量，然后将待匹配音频特征向量逐一与数据库中的特征向量两两计算相似度，从而得到最相似的特征向量以及所对应的时间戳，从而得到搜索的待匹配音频的准确位置。本方案适用于音频搜索领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频搜索匹配领域，尤其是涉及一种基于向量数据库的音频搜索方法。

技术介绍

1、音频搜索技术解决的是用一段音频搜索另一段音频的问题。该技术包含两个核心点：1)音频特征的抽取；2)音频特征的搜索匹配。

2、音频数据具有连续性，这使得准确在一段长音频中定位匹配到所求部分变得相对较难；并且音频在传输过程中会受到干扰造成失真，这会影响匹配的准确度；因此如何找到适合的音频特征，使得该特征既可以保证匹配准确，有具有较强的抗噪抗干扰能力是一个难题。并且在此基础上需要考虑如何提高效率。如何使整个处理过程变得更加快速高效。

技术实现思路

1、本专利技术主要是解决现有技术所存在的特征选取困难、易受干扰、匹配准确度低等的技术问题，提供一种特征明显、匹配准确、效率高的基于向量数据库的音频搜索方法。

2、本专利技术针对上述技术问题主要是通过下述技术方案得以解决的：一种基于向量数据库的音频搜索方法，所述向量数据库构建方法如下：

3、s1、将原始音频转化为梅尔频谱的语谱图，再转换到对数刻度的语谱图；

4、s2、将对数刻度语谱图进行压缩，并二值化；

5、s3、对s2得到的二值化图像提取特征；

6、s4、将步骤s3得到的特征向量与原始音频所对应的时间戳一起存入数据库；

7、通过对所有待入库的音频进行步骤s1至步骤s4的处理，完成数据库的构建；

8、进行音频搜索时，先将待匹配音频按照步骤s1至步骤s3进行处理，

9、作为优选，所述步骤s1具体为：

10、s101、对音频的每个短时帧应用窗函数；

11、x[n]＝w[n]·s[n]

12、其中，x[n]是加窗后的音频信号，w[n]是窗函数，s[n]是原始音频信号；本方案中使用汉明窗(hamming window)，窗函数的作用是减少频谱泄漏，使得每个帧的能量分布更加准确；

13、s102、将音频中的声音信号转换为频谱表示：x[k]＝fft(x[n])；

14、式中，x[k]为频谱；

15、s103、计算频谱的功率谱密度p[k]：p[k]＝|x[k]|2；

16、s104、将功率谱密度通过梅尔滤波器组：

17、ym(k)＝p(k)·hm(k)

18、ym(k)是梅尔滤波器组中第m个滤波器的响应，hm(k)是梅尔滤波器组中的第m个滤波器；

19、s105、取对数得到对数刻度频谱图zm：

20、

21、式中，k为帧长度；

22、s106、将对数刻度频谱图(即对数压缩后的滤波器响应)进行逆傅里叶变换，将其转换回时域：

23、z[n]＝ifft(zm)

24、s107、将每个窗口帧的频谱图拼接在一起，得到完整的语谱图。

25、梅尔滤波器组是一组三角形滤波器，每个滤波器的中心频率对应梅尔刻度(melscale)上的一个点，滤波器的数量为100；

26、

27、其中，f(m)是第m个滤波器的中心频率。

28、通过窗口长度以及梅尔滤波器数量来控制语谱图图像的复杂度，使得图像既可以包含足够多的信息以用于后续特征点的抽取，又不至于因为包含过多的无用信息而使得整个算法失去抗噪音抗干扰等泛化能力。

29、作为优选，所述步骤s2具体为：

30、s201、在纵坐标方向采用滑动窗口分解，每个窗口内求平均，从而将纵坐标进一步压缩；滑动窗口大小为50；

31、s202、在横坐标方向上将整个语谱图拆分成若干个分块语谱图，每个控制在n秒内；拆分的目的是为了减少匹配误差；n的取值为10；后续操作均针对分块语谱图进行，包括存入数据库的是分块语谱图及其对应的时间戳；

32、s203、以动态阈值为限，分块语谱图中大于该阈值的值置为255，低于该阈值的值置为0，对分块语谱图进行二值化；动态阈值的计算方法为：

33、mean(z)+std(z)*t

34、z为分块语谱图，mean()指求平均，std()指求标准差，t为一个固定的变换常量，经验值为0.8。

35、化简语谱图不仅是从计算效率出发，更因为即使有所控制，原始的语谱图依旧过于复杂，不利于处理以及泛化，因此需要对它进行一定程度的分解和化简。

36、作为优选，所述步骤s3具体为：

37、s301、首先，定义一个二值化图像i，其中(x,y)表示图像中的像素坐标，i(x,y)表示(x,y)坐标点像素的灰度值；

38、s302、计算图像i的尺度空间；尺度空间是通过应用高斯滤波器来模糊图像i得到的图像金字塔；尺度空间中的每个层级表示不同尺度下的图像；

39、s303、对于每个尺度空间中的层级，计算图像的hessian矩阵；hessian矩阵是一个二阶导数矩阵，用于检测图像中的角点和边缘；

40、s304、使用hessian矩阵计算特征点的响应值；特征点的响应值用于确定特征点的稳定性和重要性；

41、s305、在尺度空间中检测极值点，极值点是在尺度空间中具有最大或最小响应值的点，响应值计算公式为：

42、

43、其中，h(x,y)代表图像的hessian矩阵，σ是尺度参数，用于控制特征点的尺度；tr(h(x,y,σ))表示hessian矩阵的迹，det(h(x,y,σ))表示hessian矩阵的行列式，∈是一个小的正数，用于避免除以零，∈典型值为10^-10；

44、极值点检测：

45、r(x,y,σ)>r(x′,y′,σ′)

46、其中，(x′,y′,σ′)表示尺度空间中与(x,y,σ)相邻的点；

47、s306、进行亚像素精确化，使用尺度空间中的相邻像素进行亚像素精确化，以提高特征点的精度，亚像素精确化的计算方式为：

48、

49、其中，d是亚像素偏移矢量，h是hessian矩阵的逆，是特征点响应值的梯度；

50、s307、为每个特征点分配一个主方向，用于后续的特征描述；主方向的选择是基于特征点周围的图像梯度方向；一般使用图像梯度的方向直方图来确定主方向；

51、s308、在每个特征点的周围区域内计算描述子，得到特征向量。描述子是用于描述特征点附近局部结构的向量。akaze使用的描述子叫做m-ldb(modified local differencebinary)。

52、本专利技术带来的实质性效果是，匹配准确度高，抗噪抗干扰能力强，匹配效率高，可以准确定位本文档来自技高网...

【技术保护点】

1.一种基于向量数据库的音频搜索方法，其特征在于，所述向量数据库构建方法如下：

2.根据权利要求1所述的一种基于向量数据库的音频搜索方法，其特征在于，所述步骤S1具体为：

3.根据权利要求1所述的一种基于向量数据库的音频搜索方法，其特征在于，所述步骤S2具体为：

4.根据权利要求1或2或3所述的一种基于向量数据库的音频搜索方法，其特征在于，所述步骤S3具体为：

【技术特征摘要】

1.一种基于向量数据库的音频搜索方法，其特征在于，所述向量数据库构建方法如下：

2.根据权利要求1所述的一种基于向量数据库的音频搜索方法，其特征在于，所述步骤s1具体为：

3....

【专利技术属性】
技术研发人员：赵天成，张璐，张得军，
申请(专利权)人：杭州联汇科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人