一种基于支持向量机的音频分类和分段的处理方法技术

技术编号:21037398 阅读:32 留言:0更新日期:2019-05-04 06:48
本发明专利技术属于机器学习技术领域,公开了一种基于支持向量机的音频分类和分段的处理方法;音频自动分类和分割是在音频中提取结构化信息和语义内容的重要手段,是理解、分析和检索音频内容的基础;包括音频分类和音频分割的两个内容,分类方法采用基于支持向量机的分类方法;支持向量机SVM是近年来机器学习的主要成果;SVM可以解决小样本、非线性和高维数等实际问题,成为神经网络研究的一个新的热点。在分割方法中,采用贝叶斯信息准则的音频分割方法进行分割点确认。音频分割是从音频分类的音频流中提取不同音频类别的,也就是说,音频流按时间轴的类别划分。实验证明,基于SVM的音频分类算法具有良好的分类效果,平滑的音频分割结果更加准确。

【技术实现步骤摘要】
一种基于支持向量机的音频分类和分段的处理方法
本专利技术属于机器学习
,尤其涉及一种基于支持向量机的音频分类和分段的处理方法。
技术介绍
目前,业内常用的现有技术是这样的:今天的人类社会已经进入了数字化时代。随着计算机技术、网络技术和通信技术的不断发展,图像、视频、音频等多媒体信息已逐渐成为信息处理领域信息媒体的主要形式。其中,音频占有非常重要的位置。音频是多媒体的重要组成部分。与图像和视频相比,音频不仅具有独特的特征,而且音频数据量小,处理速度快,引起了人们的广泛关注。音频表达的形式多种多样,满足了人们在生活、工作、娱乐等方面的需求,互联网上的音频数据资源继续以前所未有的速度增长。从互联网上的大量音频数据中快速有效地获取和处理所需要的有效信息,是一种很好的分析、分类和检索数据的方法。如何有效地组织和管理这些音频资源,使人们更容易找到所需的音频片段已成为迫切需要。现在,关于音频分类问题的研究不仅仅是对音乐和语言的分类。分类的类别将随着人们的需求而改变,促进人们的工作和生活。一般来说,音频分类最基本的对象是语音、音乐和静音;进一步分为五类:纯音、音乐、环境声音、背景音和哑音。音频分类是音频信息深层处理的基础,是音频结构的核心技术,是提取音频结构和内容语义的重要手段。它根据所感知的特点或表达的内容,将音频数据分为不同的类别,并在语音检索、基于内容的音频分割和音频监督中起着重要的作用。一方面,它可以作为连续语音识别的初始化过程,禁止音频流中的非语音流进入语音识别器,提高语音识别的准确性,缩短识别时间。另一方面,这也是音乐类型分类的第一步。对于一个给定的音频,本专利技术可以通过音频分类对它进行分类和分割。在判断之后,对不同类型的音频数据进行不同的处理,以获得判断结果。在本例中,对不同类型的音频数据采用不同的处理方法,不仅可以缩短处理过程的时间和空间消耗,而且可以同时提高处理精度。目前,该领域的研究主要集中在三个方面:音频特征分析和提取、分类器设计和实现,以及音频分割方法。音频的分类可以说是一种模式识别的过程。它的研究重点通常包括两个基本方面:音频特征分析和提取,分类器的设计和实现。音频分类的实质是模式识别过程,主要实现了以下几点:(1)预处理。在处理音频文件之前,本专利技术需要预先处理它,即把音频流划分为更小的单元。通过对这些较短的音频单元进行分类来对音频文件进行分类。音频信号的预处理包括预重点、框架和窗口。(2)提取音频特性进行分类。特征的选择和提取是模式识别系统中最重要的部分,当然也是音频分类中最重要的部分。(3)功能筛查。多类音频分类,多级二级分类,为了更好地区分每一级的两种音频数据,将使用特征选择方法来选择最适合每个层次分类的特征集。(四)分类器的选择。使用机器学习自动对音频信号进行分类不仅减少了人力,而且还减少了时间,提高了效率。常用的音频分类器的实现主要分为两类:基于阈值和统计的模型。在音频分类领域,分类器实现方法的早期实现是基于阈值的。这种分类方法需要大量的训练数据,并且由于在不同的应用程序中所选择的阈值通常是不同的,所以它并不是通用的,而阈值判断方法只能在音频粗级上实现分类(如分类音乐、静音、声音等),不能实现对音频数据的细分类(如对掌声的识别,喊叫,爆炸声等)。因此,为了克服这些缺点,人们提出了基于统计模型的音频分类。这种分类方法不存在阈值,是一种基于统计理论的数据训练得到的分类模型。它不仅能识别粗糙级别的音频数据,还能识别精细的音频数据。在统计模型中,受监督的模型与无监督模型之间也有区别。在早期,人们经常使用监督的数据分析和分类方法,比如SVM(支持向量机)。SVM是一种基于统计学习理论的新机器学习方法,它适用于处理分类,并在更大程度上反映不同类别之间的差异。SVM方法在许多应用程序中充分展示了它的有效性。然而,SVM方法的有效性对训练数据的质量和数量有很强的依赖性。一个好的分类器确定了较高的分类精度,根据分类音频数据的分类目标对目标进行了调整,提高了分类精度。该统计模型具有较好的模拟声音特征空间分布的能力,和良好的鲁棒性。因此,近年来,支持向量机(SVM)在音频分类中得到了广泛的应用。音频分割,也被称为跳跃点检测,顾名思义,是指通过某些手段在被测试的音频序列中找到跳跃点。那么什么样的点叫做跳跃点呢?一般来说,当人类的耳朵接收到连续的音频信号时,不同的信号会产生不同的感觉。从感知的角度来看,当人类的耳朵感觉到信号的变化时,这个点被称为跳跃点,也称为分点。从信号的角度来看,这种变化可以被称为听觉特征的变化,即相应的信号的某些特征必须随着这个变化而改变。分割出不同长度的音频片段的过程称为音频分割。在当前多媒体信息处理中,音频占据着非常重要的位置,但由于媒体源本身的特点和现有技术的约束,对音频信息的进一步分析和利用是有限的。音频分类和分割技术可以很好地解决这一问题,为音频的构建、深度分析和对音频信息的利用提供了坚实的基础。综上所述,现有技术存在的问题是:在当前多媒体信息处理中,音频占据着非常重要的位置,但由于媒体源本身的特点和现有技术的约束,对音频信息的进一步分析和利用是有限。解决上述技术问题的难度和意义:(1)能有效地组织和管理这些音频资源,使人们更容易找到所需的音频片段;(2)将音频数据分为不同的类别,并在语音检索、基于内容的音频分割和音频监督中起着重要的作用,它可以作为连续语音识别的初始化过程,禁止音频流中的非语音流进入语音识别器,提高语音识别的准确性,缩短识别时间;(3)对不同类型的音频数据采用不同的处理方法,不仅可以缩短处理过程的时间和空间消耗,而且可以同时提高处理精度。(4)基于统计理论的数据训练得到的分类模型,它不仅能识别粗糙级别的音频数据,还能识别精细的音频数据。(5)SVM方法的有效性对训练数据的质量和数量有很强的依赖性。根据分类音频数据的分类目标对目标进行了调整,从而提高了分类精度。该统计模型具有较好的模拟声音特征空间分布的能力,和良好的鲁棒性。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于支持向量机的音频分类和分段的处理方法。本专利技术是这样实现的,一种基于支持向量机的音频分类和分段的处理方法,所述基于支持向量机的音频分类和分段的处理方法包括:将音频分为六类:静音、噪音、音乐、背景声音、纯语音和背景声音;在分类的基础上,采用平滑准则,并对分类结果平滑处理;通过音频分类对音频流分割。音频分割的目的是利用计算机程序智能地将音频流分割成不同长度和属性的片段,从而解放了手工分割的时间、劳动力和资本成本。改进的BIC音频分割方法如下:对于每个检测到的BIC窗口,初始窗口的长度是恒定的。如果检测到一个分裂点,将一个特定的长度滑到下一个窗口。如果分裂点未被检测到,窗的长度也增加,但当窗口长度增加到一定程度上,分裂点还没有发现,那么窗口保持当前窗口长度和滑行向前直到找到分割点恢复初始窗口长度。即使检测到分割点,窗口的长度也不会增加,并且会直接向后移动。进一步,所述基于支持向量机的音频分类和分段的处理方法的音频信号预处理包括:第一步,原始音频信号被预处理,统一音频格式;预处理,对音频信号进行分割,并对每个音频段进行窗口化和帧化;第二步,提取音频帧和音频段,并对提取的特征合并;获本文档来自技高网
...

【技术保护点】
1.一种基于支持向量机的音频分类和分段的处理方法,其特征在于,所述基于支持向量机的音频分类和分段的处理方法包括:将音频分为六类:静音、噪音、音乐、背景声音、纯语音和背景声音;在分类的基础上,采用平滑准则,并对分类结果平滑处理;通过音频分类对音频流分割;音频分割对于每个检测到的BIC窗口,初始窗口的长度是恒定的;如果检测到一个分裂点,将一个特定的长度滑到下一个窗口;如果分裂点未被检测到,窗的长度也增加,但当窗口长度增加到一定程度上,分裂点还没有发现,那么窗口保持当前窗口长度和滑行向前直到找到分割点恢复初始窗口长度;即使检测到分割点,窗口的长度也不会增加,并且会直接向后移动。

【技术特征摘要】
1.一种基于支持向量机的音频分类和分段的处理方法,其特征在于,所述基于支持向量机的音频分类和分段的处理方法包括:将音频分为六类:静音、噪音、音乐、背景声音、纯语音和背景声音;在分类的基础上,采用平滑准则,并对分类结果平滑处理;通过音频分类对音频流分割;音频分割对于每个检测到的BIC窗口,初始窗口的长度是恒定的;如果检测到一个分裂点,将一个特定的长度滑到下一个窗口;如果分裂点未被检测到,窗的长度也增加,但当窗口长度增加到一定程度上,分裂点还没有发现,那么窗口保持当前窗口长度和滑行向前直到找到分割点恢复初始窗口长度;即使检测到分割点,窗口的长度也不会增加,并且会直接向后移动。2.如权利要求1所述的基于支持向量机的音频分类和分段的处理方法,其特征在于,所述基于支持向量机的音频分类和分段的处理方法的音频信号预处理包括:第一步,原始音频信号被预处理,统一音频格式;预处理,对音频信号进行分割,并对每个音频段进行窗口化和帧化;第二步,提取音频帧和音频段,并对提取的特征合并;获得最终所需的音频特征向量;预处理原始音频数据,包括预重点、分割和加窗。3.如权利要求2所述的基于支持向量机的音频分类和分段的处理方法,其特征在于,所述第一步具体包括:(1)预加重处理,使用预强调的数字滤波器将音频信号进行数字化,通常采用一阶高通数字滤波器:H(z)=1-μz-1;就时间域而言,若通过的信号为y(n),那y(n)表示为:y(n)=x(n)-μ*x(n-1);其中x(n)表示原始信号序列,y(n)表示预强调序列;(2)加窗框架通过加权一个有限长度的窗口实现,用y(n)乘以一个特定的窗函数...

【专利技术属性】
技术研发人员:韦鹏程赵宇彭亚飞
申请(专利权)人:重庆第二师范学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1