音频数据处理方法及装置、介质和计算设备制造方法及图纸

技术编号:19748293 阅读:23 留言:0更新日期:2018-12-12 05:15
本发明专利技术的实施方式提供了一种音频数据处理方法,该方法包括:获取音频数据对应的频谱;将音频数据对应的频谱分成谐音频谱和非谐音频谱,其中,谐音频谱中的频率为基音的频率的整数倍;以及根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息。通过将音频数据对应的频谱分成谐音频谱和非谐音频谱,并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息,本发明专利技术的方法使得可以较精确的识别出音频所表达的情绪,使得用户可以根据情绪维度搜索表达相应情绪的相关音频,为用户带来了更好的体验。此外,本发明专利技术的实施方式提供了一种音频数据处理装置、介质和计算设备。

【技术实现步骤摘要】
音频数据处理方法及装置、介质和计算设备
本专利技术的实施方式涉及计算机
,更具体地,本专利技术的实施方式涉及一种音频数据处理方法及装置、介质和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。在现实生活中,一般可以将用户能听到的声音转化为音频数据,例如,歌手的歌声,通过弹奏乐器得到的曲子,用户之间的对话声等等。每个音频所传达的情绪信息也各有不同,例如,有的音频所传达的情绪信息是激动的,有的音频所传达的情绪信息是平静的,有的音频所传达的情绪信息是悲伤的,有的音频所传达的情绪信息是欢快的。一般情况下,用户可以根据自身的经验确定音频所传达的情绪信息,但是对于计算机而言,识别出音频所传达的情绪信息却不是那么容易。目前,相关技术中已经出现在时间维度上标注时间上连续的数据的情绪。例如,通过若干个标注者每500ms就给一段音频数据标注不同的情绪值,将标注者标注后得到的数据作为训练数据集训练模型,从而通过训练模型确定出不同音频所传达的情绪信息。但是该方式得到的数据集过小使得模型过于简单,对于音频的理解能力较差,不能较精确地识别音频表达的情绪信息,对于较为复杂的情绪理解问题更是难以有效解决。
技术实现思路
因此在现有技术中,不能较精确地识别音频表达的情绪信息这是非常令人烦恼的过程。为此,非常需要一种改进的音频数据处理方法及装置、介质和计算设备,以使自动标注音频表达的情绪信息,无需人工标注,提高标注音频表达的情绪信息的准确性。在本上下文中,本专利技术的实施方式期望提供一种音频数据处理方法及装置、介质和计算设备。在本专利技术实施方式的第一方面中,提供了一种音频数据处理方法,包括获取音频数据对应的频谱;将上述音频数据对应的频谱分成谐音频谱和非谐音频谱,其中,上述谐音频谱中的频率为基音的频率的整数倍;以及根据上述谐音频谱的特征信息和上述非谐音频谱的特征信息确定上述音频数据所表达的情绪信息。在本专利技术的一个实施例中,上述特征信息包括频谱的能量,根据上述谐音频谱的特征信息和上述非谐音频谱的特征信息确定上述音频数据所表达的情绪信息包括根据上述谐音频谱确定上述谐音频谱的第一能量;根据上述非谐音频谱确定上述非谐音频谱的第二能量;以及根据上述谐音频谱的第一能量和上述非谐音频谱的第二能量确定上述音频数据所表达的情绪信息。在本专利技术的另一个实施例中,上述特征信息还包括频谱的节奏,上述方法还包括根据上述谐音频谱确定上述谐音频谱的第一节奏;根据上述非谐音频谱确定上述非谐音频谱的第二节奏;以及根据上述谐音频谱的第一节奏和第一能量,上述非谐音频谱的第二节奏和第二能量确定上述音频数据所表达的情绪信息。在本专利技术的又一个实施例中,根据上述谐音频谱的第一节奏和第一能量,上述非谐音频谱的第二节奏和第二能量确定上述音频数据所表达的情绪信息包括将上述第一节奏、上述第一能量、上述第二节奏和上述第二能量输入预先训练好的神经网络;以及通过上述预先训练好的神经网络输出上述音频数据所表达的情绪信息。在本专利技术的再一个实施例中,上述方法还包括确定上述谐音频谱的旋律特征;以及将上述谐音频谱的旋律特征,与上述第一节奏、上述第一能量、上述第二节奏和上述第二能量一起输入上述预先训练好的神经网络。在本专利技术的再一个实施例中,通过上述预先训练好的神经网络输出上述音频数据所表达的情绪信息包括通过上述预先训练好的神经网络输出上述音频数据所表达的多组情绪对,其中,每组情绪对包括两种情绪相反的情绪类型,每种情绪类型具有相应的占比,上述每种情绪类型相应的占比用于表征上述音频数据所表达的情绪倾向;以及根据上述每组情绪对中的情绪类型相应的占比确定上述音频数据所表达的情绪信息。在本专利技术的再一个实施例中,上述预先训练好的神经网络中至少包括带长短记忆功能的递归神经网络单元。在本专利技术的再一个实施例中,获取音频数据对应的频谱包括对上述音频数据进行短时傅里叶变换,得到上述音频数据对应的频谱。在本专利技术实施方式的第二方面中,提供了一种音频数据处理装置,包括获取模块、处理模块和确定模块。获取模块用于获取音频数据对应的频谱;处理模块用于将上述音频数据对应的频谱分成谐音频谱和非谐音频谱,其中,上述谐音频谱中的频率为基音的频率的整数倍;以及确定模块用于根据上述谐音频谱的特征信息和上述非谐音频谱的特征信息确定上述音频数据所表达的情绪信息。在本专利技术的一个实施例中,上述特征信息包括频谱的能量,上述确定模块包括第一确定单元、第二确定单元和第三确定单元。第一确定单元用于根据上述谐音频谱确定上述谐音频谱的第一能量;第二确定单元用于根据上述非谐音频谱确定上述非谐音频谱的第二能量;以及第三确定单元用于根据上述谐音频谱的第一能量和上述非谐音频谱的第二能量确定上述音频数据所表达的情绪信息。在本专利技术的另一个实施例中,上述特征信息还包括频谱的节奏,上述确定模块还包括第四确定单元、第五确定单元和第六确定单元。第四确定单元用于根据上述谐音频谱确定上述谐音频谱的第一节奏;第五确定单元用于根据上述非谐音频谱确定上述非谐音频谱的第二节奏;以及第六确定单元用于根据上述谐音频谱的第一节奏和第一能量,上述非谐音频谱的第二节奏和第二能量确定上述音频数据所表达的情绪信息。在本专利技术的又一个实施例中,上述第六确定单元包括第一输入子单元和输出子单元。第一输入子单元用于将上述第一节奏、上述第一能量、上述第二节奏和上述第二能量输入预先训练好的神经网络;以及输出子单元用于通过上述预先训练好的神经网络输出上述音频数据所表达的情绪信息。在本专利技术的再一个实施例中,其中:上述确定模块还包括第七确定单元,用于确定上述谐音频谱的旋律特征;以及上述第六确定单元还包括第二输入子单元,用于将上述谐音频谱的旋律特征,与上述第一节奏、上述第一能量、上述第二节奏和上述第二能量一起输入上述预先训练好的神经网络。在本专利技术的再一个实施例中,上述输出子单元用于通过上述预先训练好的神经网络输出上述音频数据所表达的多组情绪对,其中,每组情绪对包括两种情绪相反的情绪类型,每种情绪类型具有相应的占比,上述每种情绪类型相应的占比用于表征上述音频数据所表达的情绪倾向;以及根据上述每组情绪对中的情绪类型相应的占比确定上述音频数据所表达的情绪信息。在本专利技术的再一个实施例中,上述预先训练好的神经网络中至少包括带长短记忆功能的递归神经网络单元。在本专利技术的再一个实施例中,上述获取模块用于对上述音频数据进行短时傅里叶变换,得到上述音频数据对应的频谱。在本专利技术实施方式的第三方面中,提供了一种介质,存储有计算机可执行指令,上述指令在被处理单元执行时用于实现如上所述的音频数据处理方法。在本专利技术实施方式的第四方面中,提供了一种计算设备,包括处理单元;以及存储单元,存储有计算机可执行指令,所述指令在被所述处理单元执行时用于实现如上所述的音频数据处理方法。根据本专利技术实施方式的音频数据处理方法及装置、介质和计算设备,通过将音频数据对应的频谱分成谐音频谱和非谐音频谱,并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息,使得可以自动标注音频表达的情绪信息,无需人工标注,较精确的识别出音频所表达的情绪,提高了确定的音频表达的情绪信息准确性,使得用户可以根据本文档来自技高网...

【技术保护点】
1.一种音频数据处理方法,包括:获取音频数据对应的频谱;将所述音频数据对应的频谱分成谐音频谱和非谐音频谱,其中,所述谐音频谱中的频率为基音的频率的整数倍;以及根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息。

【技术特征摘要】
1.一种音频数据处理方法,包括:获取音频数据对应的频谱;将所述音频数据对应的频谱分成谐音频谱和非谐音频谱,其中,所述谐音频谱中的频率为基音的频率的整数倍;以及根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息。2.根据权利要求1所述的方法,其中,所述特征信息包括频谱的能量,根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息包括:根据所述谐音频谱确定所述谐音频谱的第一能量;根据所述非谐音频谱确定所述非谐音频谱的第二能量;以及根据所述谐音频谱的第一能量和所述非谐音频谱的第二能量确定所述音频数据所表达的情绪信息。3.根据权利要求2所述的方法,其中,所述特征信息还包括频谱的节奏,所述方法还包括:根据所述谐音频谱确定所述谐音频谱的第一节奏;根据所述非谐音频谱确定所述非谐音频谱的第二节奏;以及根据所述谐音频谱的第一节奏和第一能量,所述非谐音频谱的第二节奏和第二能量确定所述音频数据所表达的情绪信息。4.根据权利要求3所述的方法,其中,根据所述谐音频谱的第一节奏和第一能量,所述非谐音频谱的第二节奏和第二能量确定所述音频数据所表达的情绪信息包括:将所述第一节奏、所述第一能量、所述第二节奏和所述第二能量输入预先训练好的神经网络;以及通过所述预先训练好的神经网络输出所述音频数据所表达的情绪信息。5.根据权利要求4所述的方法,其中,所述方法...

【专利技术属性】
技术研发人员:刘华平叶奋翼
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1