情感标注的方法及其系统技术方案

技术编号:18302114 阅读:239 留言:0更新日期:2018-06-28 12:01
本发明专利技术提供一种情感标注的方法及其系统,该方法包括:接收待标注的音频数据;采用预训练的至少一个训练模型对待标注的音频数据进行分析,将待标注的音频数据转换为声谱图,以确定待标注的音频数据的情感标签;为待标注的音频数据进行情感标注。将待识别音频数据通过预先训练的训练模型,将音频数据转化为声谱图识别,对音频数据的情感进行标注,实现了音频数据的自动化情感分类,降低了学习成本,缩短了开发周期。

The method and system of emotional annotation

The invention provides an emotional annotation method and its system. The method includes: receiving the audio data to be annotated, analyzing the audio data with at least one training model in pre training, converting the annotated audio data into a sonogram to determine the emotional label of the audio data to be labeled; Annotated audio data for emotional annotation. The audio data is converted to sound spectrum recognition by pre training training model, and the emotion of audio data is annotated. The automatic emotion classification of audio data is realized, the learning cost is reduced and the development cycle is shortened.

【技术实现步骤摘要】
情感标注的方法及其系统
本专利技术涉及数据分析
,尤其设计一种情感标注的方法及其系统。
技术介绍
音乐情感的自动标注涉及到音乐理论、心理学、信号处理、模式识别、数据挖掘等相关的知识,但专业跨度大,自动识别过程复杂,且对技术人员的设计过程要求过高。
技术实现思路
本专利技术提供一种情感标注的方法及其系统,通过将音频数据的识别转化为图像识别,完成了歌曲情感的自动化标注,降低了学习成本,缩短了开发周期。第一方面,本专利技术实施例提供一种情感标注的方法,该方法包括:接收待标注的音频数据;采用预训练的至少一个训练模型对待标注的音频数据进行分析,将待标注的音频数据转换为声谱图,以确定待标注的音频数据的情感标签;为待标注的音频数据进行情感标注。将待识别音频数据通过预先训练的训练模型,将音频数据转化为声谱图识别,对音频数据的情感进行标注,实现了音频数据的自动化情感分类,降低了学习成本,缩短了开发周期。可选地,在采用预训练的至少一个训练模型对待标注的音频数据进行分析,确定待标注的音频数据的情感标签之前,方法还包括:按照至少一个情感标签获取每个情感标签对应的训练集,训练集包括多个待训练音频数据;将训练集包括的多个待训练音频数据分别转换为声谱图;对训练集包括的多个待训练音频数据转换得到的每个声谱图进行模型训练,得到训练模型。可选地,将训练集包括的多个待训练音频数据分别转换为声谱图,包括:将多个待训练音频数据分别进行傅里叶变换,得到多个待训练音频数据的声谱图。可选地,在将训练集包括的多个待训练音频数据分别转换为声谱图之后,方法还包括:对多个待训练音频数据转换后的声谱图进行图像缩放;将缩放后的声谱图进行模型训练,得到训练模型。可选地,该方法包括采用AlexNet模型对声谱图进行模型训练得到训练模型。第二方面,本专利技术实施例提供一种系统,系统包括:接收单元,用于接收待标注的音频数据;分析单元,用于采用预训练的至少一个训练模型对待标注的音频数据进行分析,将待标注的音频数据转换为声谱图,以确定待标注的音频数据的情感标签;处理单元,还用于为待标注的音频数据进行情感标注。将待识别音频数据通过预先训练的训练模型,将音频数据转化为声谱图识别,对音频数据的情感进行标注,实现了音频数据的自动化情感分类,降低了学习成本,缩短了开发周期。可选地,系统还包括训练单元,处理单元,还用于按照至少一个情感标签获取每个情感标签对应的训练集,训练集包括多个待训练音频数据;处理单元,还用于将训练集包括的多个待训练音频数据分别转换为声谱图;训练单元,用于对训练集包括的多个待训练音频数据转换得到的每个声谱图进行模型训练,得到训练模型。可选地,处理单元具体用于,将多个待训练音频数据分别进行傅里叶变换,得到多个待训练音频数据的声谱图。可选地,处理单元,还用于对多个待训练音频数据转换后的声谱图进行图像缩放;训练单元,还用于将缩放后的声谱图进行模型训练,得到训练模型。可选地,训练单元采用AlexNet模型对声谱图进行模型训练得到训练模型。基于本专利技术提供的情感标注的方法及其系统,将待识别音频数据通过预先训练的训练模型,将音频数据转化为声谱图识别,对音频数据的情感进行标注,实现了音频数据的自动化情感分类,降低了学习成本,缩短了开发周期。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种情感标注的方法流程图;图2为本专利技术实施例提供的模型训练的方法流程图;图3为本专利技术实施例提供的另一种模型训练的方法流程图;图4为本专利技术实施例提供的一种系统结构示意图。具体实施方式本专利技术提供了一种情感标注的方法及其系统,适用于对音频数据的情感分类,例如:歌曲。下面结合附图对本专利技术的技术方案进行详细说明。图1为本专利技术实施例提供的一种情感标注的方法流程图。如图1所示,该方法可以包括以下步骤:S110,接收待标注的音频数据。待标注的音频数据为待识别的音频数据。待识别的音频数据为待情感分类的音频数据。当有待识别的音频数据需要识别时,例如对音频数据库中的音频数据进行情感分类。更具体的对歌曲库中的歌曲进行情感分类,如将歌曲按照情感标签“生机勃勃的”,“令人满足的”,“沮丧的”,“焦虑的”,等等情感分类对歌曲进行分类。S120,采用预训练的至少一个训练模型对待标注的音频数据进行分析,确定待识别音频数据的情感标签。在本专利技术实施例中,在采用与训练的至少一个训练模型对待标注的音频数据进行分析,或者说进行情感分类分析之前,需要训练至少一个训练模型,具体训练过程如图2的描述。根据训练好的至少一个训练模型将待标注的音频数据转换为声谱图进行识别,确定待标注音频数据的情感分类,即确定待标注音频数据的情感标签。在通过至少一个训练模型进行情感分析过程中,至少一个训练模型的部署可以采用以下两套方案:方案一、至少一个训练模型采用图形处理器(GraphicProcessingUnit,GPU)模式部署至单独的GPU集群,将音频数据,例如数字音乐移动至该集群进行标注。方案二、将至少一个训练模型部署至音频数据,例如数字音乐所在的CPU集群进行本地标注,模型部署方式为CPU模式。由于音频数据标注任务涉及大量的音频数据造成数据迁移的困难,且考虑到GPU虽然运算速度更快,但成本过高,因此通常会采用方案二提供的训练模型的部署方法对待标注的音频数据进行分析。S130,为待识别音频数据标注所述情感标签。将待识别音频数据通过预先训练的训练模型,将音频数据转化为声谱图识别,对音频数据的情感进行标注,实现了音频数据的自动化情感分类,降低了学习成本,缩短了开发周期。图2为本专利技术实施例提供的一种训练模型的训练方法的流程图。如图2所示,该方法可以包括以下步骤:S210,按照至少一个情感标签获取每个情感标签对应的训练集,训练集包括多个待训练音频数据。采用流行的Thayer情感模型,即分别从能量和压力两个坐标轴将音频数据的情感划分为两类,可以形成例如“生机勃勃的”,“令人满足的”,“沮丧的”,“焦虑”,等等多类情感,即情感标签。按照至少一个情感标签(如生机勃勃的,令人满足的,沮丧的,焦虑)分别从音频数据库中抽取预定数目的待训练音频数据文件,例如1000个。在本专利技术实施例中对抽取每个情感标签的待训练音频数据的数目不作限定,可以根据实际的训练精度进行确定,通常抽取的待训练音频数据的数目越多训练出的训练模型的精度越高。S220,将训练集包括的多个待训练音频数据分别转换为声谱图。音频数据对应的声音主要包含三个维度:时间、频率、能量。常见的声音可视化表示方式有波形图、频谱图、声谱图。波形图表征音频数据的时域信息,损失了频率信息;频谱图表征音频数据的频域信息,不包含能量信息;声谱图则可以同时表征声音的时间、频率、能量信息。由于音频数据的有损压缩过程涉及到声音的三个维度,因此,为保证信息表达的完整性,本申请将待训练音频数据的声谱图作为模型训练的输入,进行模型训练。在本专利技术实施例中,可以将待训练的音频数据通过傅里叶变换转换为声谱图。在本专利技术实施例中,可以通过短傅里叶变本文档来自技高网...
情感标注的方法及其系统

【技术保护点】
1.一种情感标注的方法,其特征在于,所述方法包括:接收待标注的音频数据;采用预训练的至少一个训练模型对所述待标注的音频数据进行分析,确定所述待标注的音频数据的情感标签;为所述待标注的音频数据进行情感标注。

【技术特征摘要】
1.一种情感标注的方法,其特征在于,所述方法包括:接收待标注的音频数据;采用预训练的至少一个训练模型对所述待标注的音频数据进行分析,确定所述待标注的音频数据的情感标签;为所述待标注的音频数据进行情感标注。2.根据权利要求1所述的方法,其特征在于,在所述采用预训练的至少一个训练模型对所述待标注的音频数据进行分析,确定所述待标注的音频数据的情感标签之前,所述方法还包括:按照至少一个情感标签获取每个情感标签对应的训练集,所述训练集包括多个待训练音频数据;将所述训练集包括的所述多个待训练音频数据分别转换为声谱图;对所述训练集包括的所述多个待训练音频数据转换得到的每个声谱图进行模型训练,得到训练模型。3.根据权利要求2所述的方法,其特征在于,所述将所述训练集包括的所述多个待训练音频数据分别转换为声谱图,包括:将所述多个待训练音频数据分别进行傅里叶变换,得到所述多个待训练音频数据的声谱图。4.根据权利要求2或3所述的方法,其特征在于,在将所述训练集包括的所述多个待训练音频数据分别转换为声谱图之后,所述方法还包括:对所述多个待训练音频数据转换后的声谱图进行图像缩放;将缩放后的声谱图进行模型训练,得到训练模型。5.根据权利要求2所述的方法,其特征在于,该方法包括采用AlexN...

【专利技术属性】
技术研发人员:马明
申请(专利权)人:北京酷我科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1