一种基于支持向量机的音频分类和分段的处理方法技术

技术编号：21037398 阅读：32 留言：0更新日期：2019-05-04 06:48

本发明专利技术属于机器学习技术领域，公开了一种基于支持向量机的音频分类和分段的处理方法；音频自动分类和分割是在音频中提取结构化信息和语义内容的重要手段，是理解、分析和检索音频内容的基础；包括音频分类和音频分割的两个内容，分类方法采用基于支持向量机的分类方法；支持向量机SVM是近年来机器学习的主要成果；SVM可以解决小样本、非线性和高维数等实际问题，成为神经网络研究的一个新的热点。在分割方法中，采用贝叶斯信息准则的音频分割方法进行分割点确认。音频分割是从音频分类的音频流中提取不同音频类别的，也就是说，音频流按时间轴的类别划分。实验证明，基于SVM的音频分类算法具有良好的分类效果，平滑的音频分割结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于支持向量机的音频分类和分段的处理方法
本专利技术属于机器学习
，尤其涉及一种基于支持向量机的音频分类和分段的处理方法。
技术介绍
目前，业内常用的现有技术是这样的：今天的人类社会已经进入了数字化时代。随着计算机技术、网络技术和通信技术的不断发展，图像、视频、音频等多媒体信息已逐渐成为信息处理领域信息媒体的主要形式。其中，音频占有非常重要的位置。音频是多媒体的重要组成部分。与图像和视频相比，音频不仅具有独特的特征，而且音频数据量小，处理速度快，引起了人们的广泛关注。音频表达的形式多种多样，满足了人们在生活、工作、娱乐等方面的需求，互联网上的音频数据资源继续以前所未有的速度增长。从互联网上的大量音频数据中快速有效地获取和处理所需要的有效信息，是一种很好的分析、分类和检索数据的方法。如何有效地组织和管理这些音频资源，使人们更容易找到所需的音频片段已成为迫切需要。现在，关于音频分类问题的研究不仅仅是对音乐和语言的分类。分类的类别将随着人们的需求而改变，促进人们的工作和生活。一般来说，音频分类最基本的对象是语音、音乐和静音；进一步分为五类：纯音、音乐、环境声音、背景音和哑音。音频分类是音频信息深层处理的基础，是音频结构的核心技术，是提取音频结构和内容语义的重要手段。它根据所感知的特点或表达的内容，将音频数据分为不同的类别，并在语音检索、基于内容的音频分割和音频监督中起着重要的作用。一方面，它可以作为连续语音识别的初始化过程，禁止音频流中的非语音流进入语音识别器，提高语音识别的准确性，缩短识别时间。另一方面，这也是音乐类型分类的第一步。对于一个给定的音频...

【技术保护点】
1.一种基于支持向量机的音频分类和分段的处理方法，其特征在于，所述基于支持向量机的音频分类和分段的处理方法包括：将音频分为六类：静音、噪音、音乐、背景声音、纯语音和背景声音；在分类的基础上，采用平滑准则，并对分类结果平滑处理；通过音频分类对音频流分割；音频分割对于每个检测到的BIC窗口，初始窗口的长度是恒定的；如果检测到一个分裂点，将一个特定的长度滑到下一个窗口；如果分裂点未被检测到，窗的长度也增加，但当窗口长度增加到一定程度上，分裂点还没有发现，那么窗口保持当前窗口长度和滑行向前直到找到分割点恢复初始窗口长度；即使检测到分割点，窗口的长度也不会增加，并且会直接向后移动。

【技术特征摘要】
1.一种基于支持向量机的音频分类和分段的处理方法，其特征在于，所述基于支持向量机的音频分类和分段的处理方法包括：将音频分为六类：静音、噪音、音乐、背景声音、纯语音和背景声音；在分类的基础上，采用平滑准则，并对分类结果平滑处理；通过音频分类对音频流分割；音频分割对于每个检测到的BIC窗口，初始窗口的长度是恒定的；如果检测到一个分裂点，将一个特定的长度滑到下一个窗口；如果分裂点未被检测到，窗的长度也增加，但当窗口长度增加到一定程度上，分裂点还没有发现，那么窗口保持当前窗口长度和滑行向前直到找到分割点恢复初始窗口长度；即使检测到分割点，窗口的长度也不会增加，并且会直接向后移动。2.如权利要求1所述的基于支持向量机的音频分类和分段的处理方法，其特征在于，所述基于支持向量机的音频分类和分段的处理方法的音频信号预处理包括：第一步，原始音频信号被预处理，统一音频格式；预处理，对音频信号进行分割，并对每个音频段进行窗口化和帧化；第二步，提取音频帧和音频段，并对提取的特征合并；获得最终所需的音频特征向量；预处理原始音频数据，包括预重点、分割和加窗。3.如权利要求2所述的基于支持向量机的音频分类和分段的处理方法，其特征在于，所述第一步具体包括：(1)预加重处理，使用预强调的数字滤波器将音频信号进行数字化，通常采用一阶高通数字滤波器：H(z)＝1-μz-1；就时间域而言，若通过的信号为y(n)，那y(n)表示为：y(n)＝x(n)-μ*x(n-1)；其中x(n)表示原始信号序列，y(n)表示预强调序列；(2)加窗框架通过加权一个有限长度的窗口实现，用y(n)乘以一个特定的窗函数...

【专利技术属性】
技术研发人员：韦鹏程，赵宇，彭亚飞，
申请(专利权)人：重庆第二师范学院，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人