一种音频的标签化处理方法、装置和计算设备制造方法及图纸

技术编号：20626006 阅读：41 留言：0更新日期：2019-03-20 16:02

本发明专利技术提供了一种音频的标签化处理方法和装置。该方法包括：获取原始音频信号；对所述原始音频信号进行离散化，得到目标音频；通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量；对所述特征向量进行聚类分析，得到所述特征向量对应的原始音频的不同分类；针对所述特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签。本发明专利技术提供的方案实现了高效、准确的音频分类，并实现了高准确度和全面性的音频标签化，从而能够提高音频的搜索命中率和推荐准确率。

An Audio Labeling Processing Method, Device and Computing Equipment

The invention provides an audio labeling processing method and device. The method includes: acquiring the original audio signal; discretizing the original audio signal to get the target audio; extracting the features of the target audio through the time series convolution neural network CNN to get the feature vectors of the target audio; clustering analysis of the feature vectors to get the different classifications of the original audio corresponding to the feature vectors; and aiming at the feature directions. Different classifications of the original audio corresponding to the quantities are used to extract the keywords in the title of the original audio corresponding to the same category, and one or more keywords are selected from the keywords as the audio label of the same category according to the predetermined rules. The scheme of the invention realizes efficient and accurate audio classification, achieves high accuracy and comprehensive audio tagging, thereby improving the audio search hit rate and recommendation accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种音频的标签化处理方法、装置和计算设备
本专利技术涉及音频处理
，特别是一种音频的标签化处理方法、音频的标签化处理装置、计算机存储介质以及计算设备。
技术介绍
随着网络技术的发展和普及，出现了大量聚合类音频的分发平台，能够为网络用户提供个性化的音频服务，包括上传、搜索、推荐、播放、下载等服务。为了便于用户搜索和使用音频，并贴合用户的兴趣和需求进行音频的推荐，需要对平台上的海量音频进行准确的分类并为每个音频分配全面、合理的标签。现有的音频标签化方法通常通过人工标注，或仅简单地通过单个音频的标题和说明文字提取关键字作为标签，操作效率低、准确度低、标签涵盖面小。因此，亟需一种高效率、高准确度和全面性的音频标签化处理技术。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的音频的标签化处理方法、音频的标签化处理装置、计算机存储介质以及计算设备。根据本专利技术实施例的一方面，提供了一种音频的标签化处理方法，包括：获取原始音频信号；对所述原始音频信号进行离散化，得到目标音频；通过时序卷积神经网络CNN提取所述目标音频的特征，得...

【技术保护点】
1.一种音频的标签化处理方法，包括：获取原始音频信号；对所述原始音频信号进行离散化，得到目标音频；通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量；对所述特征向量进行聚类分析，得到所述特征向量对应的原始音频的不同分类；针对所述特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签。

【技术特征摘要】
1.一种音频的标签化处理方法，包括：获取原始音频信号；对所述原始音频信号进行离散化，得到目标音频；通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量；对所述特征向量进行聚类分析，得到所述特征向量对应的原始音频的不同分类；针对所述特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签。2.根据权利要求1所述的方法，其中，对所述原始音频信号进行离散化，包括：按指定采样频率对所述原始音频信号进行采样，对采样值幅度进行量化，并编码为脉冲编码调制PCM信号。3.根据权利要求1所述的方法，其中，通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量，包括：对所述目标音频按时间窗口进行分帧，得到n个音频帧；通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量；将n个所述m维特征向量按时间顺序连接，得到一n×m维特征向量；对所述n×m维特征向量进行降维分析，得到所述目标音频的最终的指定维数的特征向量，其中，n和m为大于1的自然数。4.根据权利要求3所述的方法，其中，通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量，包括：对每个音频帧进行短时傅里叶变换STFT，得到该音频帧的频谱图；对每个音频帧的所述频谱图进行对数-梅尔log-mel变换，得到该音频帧的log-mel声谱图；将每个音频帧的所述log-mel声谱图输入时序CNN进行特征提取，...

【专利技术属性】
技术研发人员：罗玄，张好，黄君实，陈强，
申请(专利权)人：北京奇虎科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人