一种拖拽音频文件进行音频文件信息检索的方法和装置制造方法及图纸

技术编号:10500060 阅读:75 留言:0更新日期:2014-10-04 16:33
本发明专利技术公开了一种拖拽音频文件进行音频文件信息检索的方法和装置,所述方法包括:检测作用于所述音频文件的拖拽操作;根据所述拖拽操作,获取所述音频文件的音频信号;对所述音频信号进行分帧处理,生成至少一个音频分帧;利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧;提取所述关键帧的音频指纹;利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。通过本发明专利技术,可以实现无文字输入的检索方式,并且还可以缩短检索时的信息输入时间。

【技术实现步骤摘要】
一种拖拽音频文件进行音频文件信息检索的方法和装置
本专利技术涉及音频处理技术,尤其涉及一种拖拽音频文件进行音频文件信息检索的方法和装置。
技术介绍
现有的音频文件(例如歌曲文件)的搜索都是通过手工输入音频文件的名称、音频文件的词曲作者、音频文件的演绎着(例如歌手)或者音乐专辑名等文本信息进行搜索的。然而,如果用户本地有这样的一首歌曲文件,其文件信息已经被破坏,没有歌曲名或歌手名或专辑名,这时,按现有的搜索方法,用户难以查看这首歌的真实信息,下载此歌曲的歌词,或者找到更高品质的相同歌曲等。并且,即使知道这首歌曲的歌曲名、歌手名、专辑名等信息,用户手工输入过于麻烦,容易出错,而且经常搜索出来的结果有很多,要用户自己判别哪个搜索结果才是自己想要的,导致过多的结果筛选耗时。
技术实现思路
有鉴于此,本专利技术提供了一种拖拽音频文件进行音频文件信息检索的方法和装置,来解决以上
技术介绍
部分提到的技术问题。 一方面,本专利技术提供了一种拖拽音频文件进行音频文件信息检索的方法,所述方法包括: 检测作用于所述音频文件的拖拽操作; 根据所述拖拽操作,获取所述音频文件的音频信号; 对所述音频信号进行分帧处理,生成至少一个音频分帧; 利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧; 提取所述关键巾贞的首频指纹; 利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。 对应地,本专利技术还提出了一种拖拽音频文件进行音频文件信息检索的装置,所述装置包括: 检测模块,用于检测作用于所述音频文件的拖拽操作; 音频信号获取模块,用于根据所述拖拽操作获取所述音频文件的音频信号; 分帧处理模块,用于对所述音频信号进行分帧处理,生成至少一个音频分帧; 关键帧确定模块,用于利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键巾贞; 首频指纹提取|吴块,用于提取所述关键巾贞的首频指纹; 检索模块,用于利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。 本专利技术提出的拖拽音频文件进行音频文件信息检索的方法和装置具有如下特点:首先,通过对音频文件的拖拽操作而非直接的文本输入操作,减少了用户在检索时手工输入音频文件的文本信息可能带来的误输入,同时也有助于缩短检索时的信息输入时间;其次,通过直接利用音频文件的经提取的音频指纹来在音频指纹数据库中检索相应的音频文件的信息,对于文件信息已经被破坏的音频文件而言,提供了新的无文字输入的检索方式。 【附图说明】 图1是根据本专利技术第一实施例的拖拽音频文件进行音频文件信息检索的方法的实现流程图; 图2是时长为20秒的音频信号的谱能量特征分布示意图; 图3是根据本专利技术第一实施例的起始点检测算法(ODF)的实现过程的示意图; 图4是在音频指纹数据库中存储音频文件的音频指纹的实现过程的示意图; 图5是在如图4所示的音频指纹数据库中检索音频指纹的实现过程的示意图; 图6是根据本专利技术第二实施例的拖拽音频文件进行音频文件信息检索的装置的结构示意图。 【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。 在图1-3中示出了本专利技术的第一实施例。 图1为根据本专利技术第一实施例的一种拖拽音频文件进行音频文件信息检索的方法的实现流程100,该实现流程100详述如下: 在步骤101中,检测作用于音频文件的拖拽操作。 在第一实施例中,在音频文件是存储于台式机或者膝上型计算机中的情况下,用户可以借助于鼠标的点击和拖放来实现所述音频文件的拖拽操作;而在音频文件是存储于带触摸屏的移动终端(例如手机、平板电脑或者导航仪)的情况下,用户还可以借助手指或者指点笔的点击和移动来实现所述音频文件的拖拽操作。 在本申请中,所述音频文件包括但不限于:⑶格式、WAVE (*.WAV)格式、AIFF格式、AU格式、MP3格式、MIDI格式、WMA格式、RealAud1格式、VQF格式、OggVorbis格式、AAC格式、APE格式的声音文件以及支持音频输出的视频文件。 在步骤102中,根据拖拽操作,获取上述音频文件的音频信号。 在第一实施例中,在检测到作用于音频文件的拖拽操作的情况下,可以判断用户的所述拖拽操作是否满足了预设的拖拽规则,如果满足,则对所述音频文件进行频谱解析,从而生成可以用频谱图的形式进行视觉呈现的音频信号。以支持鼠标操作的计算机为例,上述拖拽规则可以为:在鼠标指针悬停在音频文件上之后鼠标左键被按下;鼠标指针的移动距离大于或等于预设距离阈值,或者对所述音频文件的拖拽时间超过预设时间阈值。其中,上述预设距离阈值和预设时间阈值可以是缺省值,也可以根据实际应用需要由用户手动设置。 可选地,还可以通过设置拖拽操作的处理控件来对所拖拽的音频文件进行频谱解析:例如,首先可以获取由于所述拖拽操作而移动的所述音频文件的当前位置;接着,判断所述当前位置是否落入预设的拖拽处理控件区域;最后,在所述判断的结果为是的情况下,对所述音频文件进行频谱解析,从而生成音频信号。对于台式机客户端而言,所述处理控件可以是视图窗口控件,这时,可以使用微软公司提供的MFC类库的CView类中的COleDropTarget类对象,在处理控件(例如视图窗口)初始化时,调用COleDropTarget类成员函数Register O,以此在系统中注册该视图窗口为拖拽操作的处理窗口。当进行拖放操作的鼠标指针处于视图窗口范围内时,COleDropTarget类会做出反应,它的OnDragEnter、OnDragOver、OnDropEx、OnDrop等成员函数被依次调用,这些函数默认均是调用与其相对应的CView类成员函数OnDragEnter、OnDragOver> OnDropEx> OnDrop等,程序员只需重载这些CView类成员函数,即可对拖拽操作的过程及结果进行控制。对于网页形式的客户端而言,可以使用javascript和html5的开放API进行实现对拖拽操作的处理;而对于平板电脑客户端而言,也可以使用产商提供的API实现对拖拽操作的处理。 在步骤103中,对音频信号进行分帧处理,生成至少一个音频分帧。 在第一实施例中,可以对步骤102中获取的音频信号的完整的频谱图,以预定时间间隔(例如15晕秒的时间间隔)随机提取其固定时间长度(例如11.6晕秒窗长)的频谱图分段,从而得到至少一个音频分帧,其中所述音频分帧与所述频谱图分段是一一对应的。在本实施例中,上述预定时间间隔和固定时间长度可以是缺省值,也可以根据实际应用需要由用户手动设置。 在步骤104中,利用起始点检测算法(ODF, Onset Detect1n Algorithm)确定至少一个音频分帧中的关键帧。 在实际应用中,音频信号是一种短时信号,换而言之,该信号在小时间单位(比如20毫秒)内在频域上变化不大。随着时间的变化,音频信号的变化会逐渐加大(这种逐渐加大的变本文档来自技高网...

【技术保护点】
一种拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述方法包括:检测作用于所述音频文件的拖拽操作;根据所述拖拽操作,获取所述音频文件的音频信号;对所述音频信号进行分帧处理,生成至少一个音频分帧;利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧;提取所述关键帧的音频指纹;利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。

【技术特征摘要】
1.一种拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述方法包括: 检测作用于所述音频文件的拖拽操作; 根据所述拖拽操作,获取所述音频文件的音频信号; 对所述音频信号进行分帧处理,生成至少一个音频分帧; 利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧; 提取所述关键帧的首频指纹; 利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。2.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述根据所述拖拽操作获取所述音频文件的音频信号的步骤包括:获取由于所述拖拽操作而移动的所述音频文件的当前位置;判断所述当前位置是否落入预设的拖拽处理控件区域;在所述判断的结果为是的情况下,对所述音频文件进行频谱解析,从而生成音频信号。3.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述对所述音频信号进行分帧处理生成至少一个音频分帧的步骤包括:按照预定时间间隔从所述音频信号中提取固定时间长度的频谱图分段,从而得到至少一个音频分帧。4.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述利用起始点检测算法( ODF)确定所述至少一个音频分帧中的关键帧包括:对所述至少一个音频分帧中的各音频分帧进行快速傅里叶变换(FFT);提取所述各音频分帧的ODF特征参数;根据所述ODF特征参数确定所述各音频分帧中的关键帧。5.根据权利要求4所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述根据所述ODF特征参数确定所述各音频分帧中的关键帧包括:将所述ODF特征参数满足预设ODF阈值条件的音频分帧确定为关键帧。6.根据权利要求4-5之一所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述提取所述各音频分帧的ODF特征参数,通过以下算法中的一种算法或一种以上的算法的组合来实现: 能量算法、差分相位算法、高频分量算法、改进的库尔贝克和莱伯勒散度算法、美尔倒谱系数、线谱对和加权相位差分。7.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述提取所述关键帧的音频指纹包括:基于离散余弦变换(DCT)和最小哈希算法得到所述关键帧的音频指纹。8.根据权利要求7所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述基于离散余弦变换(DCT)和最小哈希算法得到所述关键帧的音频指纹,包括:对所述关键帧进行短时的DCT,并保留部分DCT系数;将所保留的DCT系数采用二进制表示;采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹。9.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述音频指纹数据库包括音频指纹和与所述音频指纹相...

【专利技术属性】
技术研发人员:陈剑锋李深远赵伟峰张李伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1