【技术实现步骤摘要】
本专利技术涉及模式识别和多媒体信息处理领域,尤其涉及。
技术介绍
当前,随着信息化社会的快速发展,多媒体信息数据呈现爆炸式增长,如何对这些多媒体数据进行有效利用以服务于人们的日常生活,成为当前亟待解决的问题。多媒体数据包括图像、音频等多种形式。目前对图像的研究与利用已经非常广泛,而对音频的研究起步相对较晚,还有许多技术上的难题亟待解决。连续的音频流中通常会包含一系列的声学事件,比如说话声、笑声、音乐声等等,而音频场景是指由时间上相邻且语义上相关的若干声学事件所组成的一个音频片段。相对于声学事件来说,音频场景蕴 含着更高层次的语义表达,比如战争音频场景中包含有枪声、炮弹的爆炸声、士兵的喊叫声等一系列的声学事件,而战争音频场景就是在这一系列声学事件的基础上所演绎出来的更加抽象的语义表达。音频场景识别(Audio SceneRe co gn i t i on,ASR )就是对音频片段的内容加以分析和识别,进而加以音频场景的类别标识。在音频的研究与利用方面,目前国内外已经开展了不少对声学事件(AcousticEvent)的分类研究。但是,在日常生活中,人们往往对音频场景 ...
【技术保护点】
一种基于声学事件的音频场景识别方法,其特征是,具体步骤为:步骤一:对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧;步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系;步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系;步骤四:对每个音频场景片段,根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件,进而推理得到音频场景片段的语义场景。
【技术特征摘要】
1.一种基于声学事件的音频场景识别方法,其特征是,具体步骤为: 步骤一:对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧; 步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系; 步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系; 步骤四:对每个音频场景片段,根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件,进而推理得到音频场景片段的语义场景。2.如权利要求1所述一种基于声学事件的音频场景识别方法,其特征是,所述步骤一的具体步骤为: (1-1)对拟进行音频场景识别的音频流进行音频场景分割,将音频流分割成若干个长短不一的音频场景片段; (1-2)对每个音频场景片段进行二次定长分割,将其分割成若干个长度为30毫秒的音频帧。3.如权利要求1所述一种基于声学事件的音频场景识别方法,其特征是,所述步骤二的具体步骤为: (2-1)通过高斯混合模型或支持向量机模型建立各...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。