音频匹配方法,电子设备及存储介质组成比例

技术编号:25443446 阅读:20 留言:0更新日期:2020-08-28 22:30
本申请公开了一种音频匹配方法,电子设备及存储介质。该方法包括:获取待处理音频;按照划分方式将待处理音频划分为多个第一音频帧,其中相邻两个第一音频帧部分重叠;对每个第一音频帧进行傅里叶变换得到每个第一音频帧的频谱;基于第一音频帧的频谱,得到待处理音频的多个频谱峰值特征指纹;将待处理音频的多个频谱峰值特征指纹与数据库音频的多个频谱峰值特征指纹进行动态滑窗匹配检索,得到待处理音频的匹配结果。通过上述方式,本申请能够得到更加准确的待处理音频匹配结果。

【技术实现步骤摘要】
音频匹配方法,电子设备及存储介质
本申请涉及数据处理领域,特别是涉及一种音频匹配方法,电子设备及存储介质。
技术介绍
近年来,互联网音视频数据海量增加,音视频数据相比于其他形式的数据具有信息传播速度快、用户创造内容等特点。这些音视频数据在给我们的生活带来极大便利的同时也伴随着网络犯罪等情况的发生。现有技术中,一般采用自动匹配方法来从海量的音视频数据中获取如涉网犯罪的信息。然而,现有的自动匹配方法得到的结果不够准确。
技术实现思路
本申请提供一种音频匹配方法,电子设备及存储介质,能够解决现有的自动匹配方法得到的结果不够准确的问题。为解决上述技术问题,本申请采用的一个技术方案是:提供一种音频匹配方法,该方法包括:获取待处理音频;按照划分方式将待处理音频划分为多个第一音频帧,其中相邻两个第一音频帧部分重叠;对每个第一音频帧进行傅里叶变换得到每个第一音频帧的频谱;基于第一音频帧的频谱,得到待处理音频的多个频谱峰值特征指纹;将待处理音频的多个频谱峰值特征指纹与数据库音频的多个频谱峰值特征指纹进行动态滑窗匹配检索,得到待处理音频的匹配结果。为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括处理器、与处理器连接的存储器,该存储器存储有程序指令;处理器用于执行存储器存储的所述程序指令以实现上述方法。为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有程序指令,该程序指令被执行时能够实现上述方法。本申请的有益效果是:本申请将待处理音频划分为多个第一音频帧,其中相邻的第一音频帧部分重叠,与传统的不重叠的划分方式相比,得到的第一音频帧数量更多,对应的频谱峰值特征指纹更多,即使在待处理音频的时长较短的情况下,也可以得到更加准确的匹配结果。附图说明图1是本申请音频匹配方法一实施例的流程示意图;图2是图1中S120的具体流程示意图;图3是图1中S140的具体流程示意图;图4是图3中S141的具体流程示意图;图5是本申请音频匹配方法一实施例中组合哈希键值示意图;图6是图1中S150的具体流程示意图;图7是图1中S160的具体流程示意图;图8是图7中S161的具体流程示意图;图9是现有的滑窗方法示意图;图10是本申请音频匹配方法一实施例中滑窗方法示意图;图11是图8中S1613的具体流程示意图;图12是本申请音频匹配方法一实施例中散列表示意图;图13是图7中S162的具体流程示意图;图14是本申请电子设备一实施例的结构示意图;图15是本申请存储介质一实施例的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤的过程、方法、产品或设备没有限定于已列出的步骤,而是可选地还包括没有列出的步骤,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。图1是本申请音频匹配方法第一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例可以包括:图1是本申请音频匹配方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例可以包括:S110:获取待处理音频。待处理音频可以为语音、录音、音乐、视频中的声音等音频数据。S120:按照划分方式将待处理音频划分为多个第一音频帧。其中相邻两个第一音频帧部分重叠。参阅图2,S120可以包括:S121:确定划分参数。可选地,划分参数包括第一音频帧的时长以及相邻两个第一音频帧之间的时间间隔。其中,该划分参数可以预先设定。也可以是通过计算方式得到,计算所用的数据可以包括但不限于检索精度要求、待处理音频的时长、检索耗时阈值等中的至少一种。其中,检索精度要求越高,第一音频帧的时长和/或相邻两个第一音频帧之间的时间间隔越短;或者待处理音频的时长越短,第一音频帧的时长和/或相邻两个第一音频帧之间的时间间隔越短;检索耗时阈值越高,第一音频帧的时长和/或相邻两个第一音频帧之间的时间间隔越短。S122:按照划分参数将待处理音频划分为多个第一音频帧。每个第一音频帧时长可以相等,每个第一音频帧相对于待处理音频可以具有不同的时间偏移量。S130:对每个第一音频帧进行傅里叶变换得到每个第一音频帧的频谱。具体可通过快速傅里叶变换或其它频谱获取方式得到每个第一音频帧的频谱。S140:基于第一音频帧的频谱,得到待处理音频的多个频谱峰值特征指纹。可选地,每个待处理音频的频谱峰值特征指纹由两个不同第一音频帧的频谱峰值点组成。具体获取方法如下:参阅图3,S140可以包括以下子步骤:S141:分别从每个第一音频帧的频谱中提取多个频谱峰值点。每个第一音频帧中可以有多个特征点。以其中一个第一音频帧的频谱进行举例说明。特征点可以表示为(t,f),其中t为第一音频帧在时域上的标记,可以为第一音频帧所占据的时段中的某个时间点,比如起点、终点、中间点等,也可以为第一音频帧的序号,f为第一音频帧的频率,从当前第一音频帧的频谱的特征点中选择一个特征点(t0,f0),并定义其邻域为:若特征点(t0,f0)的能量S(t0,f0)在U中最大,则将特征点(t0,f0)作为当前第一音频帧的频谱峰值点。为了更好的区分频谱峰值点的能量值与邻域中其他干扰特征点的能量值,可以用一个包含时间和频率的二维高斯函数g(t0,f0,t,f)对其他干扰特征点的能量值进行加重,对计算本文档来自技高网...

【技术保护点】
1.一种音频匹配方法,其特征在于,包括:/n获取待处理音频;/n按照划分方式将所述待处理音频划分为多个第一音频帧,其中相邻两个所述第一音频帧部分重叠;/n对每个所述第一音频帧进行傅里叶变换得到每个所述第一音频帧的频谱;/n基于所述第一音频帧的频谱,得到所述待处理音频的多个频谱峰值特征指纹;/n将所述待处理音频的多个频谱峰值特征指纹与数据库音频的多个频谱峰值特征指纹进行动态滑窗匹配检索,得到所述待处理音频的匹配结果。/n

【技术特征摘要】
1.一种音频匹配方法,其特征在于,包括:
获取待处理音频;
按照划分方式将所述待处理音频划分为多个第一音频帧,其中相邻两个所述第一音频帧部分重叠;
对每个所述第一音频帧进行傅里叶变换得到每个所述第一音频帧的频谱;
基于所述第一音频帧的频谱,得到所述待处理音频的多个频谱峰值特征指纹;
将所述待处理音频的多个频谱峰值特征指纹与数据库音频的多个频谱峰值特征指纹进行动态滑窗匹配检索,得到所述待处理音频的匹配结果。


2.根据权利要求1所述的方法,其特征在于,所述将所述待处理音频的多个频谱峰值特征指纹与数据库音频的多个频谱峰值特征指纹进行动态滑窗匹配检索,得到所述待处理音频的匹配结果之前,包括:
获取所述数据库音频的多个频谱峰值特征指纹。


3.根据权利要求2所述的方法,其特征在于,所述获取所述数据库音频的多个频谱峰值特征指纹包括:
按照所述划分方式将所述数据库音频划分为多个第二音频帧,其中相邻两个所述第二音频帧部分重叠;
对每个所述第二音频帧进行傅里叶变换,得到每个所述第二音频帧的频谱;
基于所述第二音频帧的频谱,得到所述数据库音频的多个频谱峰值特征指纹。


4.根据权利要求1所述的方法,其特征在于,所述按照划分方式将所述待处理音频划分为多个第一音频帧包括:
确定划分参数,所述划分参数包括所述第一音频帧的时长以及相邻两个所述第一音频帧之间的时间间隔;
按照所述划分参数将所述待处理音频划分为多个第一音频帧。


5.根据权利要求1所述的方法,其特征在于,
每个所述待处理音频的所述频谱峰值特征指纹由两个不同所述第一音频帧的频谱峰值点组成。


6.根据权利要求1所述的方法,其特征在于,
所述将所述待处理音频的多个频谱峰值特征指纹与数据库音频的多个频谱峰值特征指纹进行动态滑窗匹配检索,得到所述待处理音频的匹配结果包括:
分别为每个所述第一音频帧的频谱峰值特征指纹进行动态滑窗匹配检索,得到每个所述第一音频帧的匹配结果;
合并所述每个所述第一音频帧的匹配结果,得到所述待处理音频的匹配结果。


7.根据权利要求6所述的方法,其特征在于,
所述分别为每个所述第一音频帧的频谱峰值特征指纹进行动态滑窗匹配检索,得到每个所述第一音频帧的匹...

【专利技术属性】
技术研发人员:钟奥王建社冯祥查飞余巍董德武张建忠程彪
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1