音频数据处理方法及装置、介质和计算设备制造方法及图纸

技术编号：19748293 阅读：23 留言：0更新日期：2018-12-12 05:15

本发明专利技术的实施方式提供了一种音频数据处理方法，该方法包括：获取音频数据对应的频谱；将音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，谐音频谱中的频率为基音的频率的整数倍；以及根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息。通过将音频数据对应的频谱分成谐音频谱和非谐音频谱，并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息，本发明专利技术的方法使得可以较精确的识别出音频所表达的情绪，使得用户可以根据情绪维度搜索表达相应情绪的相关音频，为用户带来了更好的体验。此外，本发明专利技术的实施方式提供了一种音频数据处理装置、介质和计算设备。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据处理方法及装置、介质和计算设备
本专利技术的实施方式涉及计算机
，更具体地，本专利技术的实施方式涉及一种音频数据处理方法及装置、介质和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。在现实生活中，一般可以将用户能听到的声音转化为音频数据，例如，歌手的歌声，通过弹奏乐器得到的曲子，用户之间的对话声等等。每个音频所传达的情绪信息也各有不同，例如，有的音频所传达的情绪信息是激动的，有的音频所传达的情绪信息是平静的，有的音频所传达的情绪信息是悲伤的，有的音频所传达的情绪信息是欢快的。一般情况下，用户可以根据自身的经验确定音频所传达的情绪信息，但是对于计算机而言，识别出音频所传达的情绪信息却不是那么容易。目前，相关技术中已经出现在时间维度上标注时间上连续的数据的情绪。例如，通过若干个标注者每500ms就给一段音频数据标注不同的情绪值，将标注者标注后得到的数据作为训练数据集训练模型，从而通过训练模型确定出不同音频所传达的情绪信息。但是该方式得到的数据集过小使得模型过于简单，对于音频的理解能力较差，不能较精确地识别音频表达的情绪信息，对于较为复杂的情绪理解问题更是难以有效解决。
技术实现思路
因此在现有技术中，不能较精确地识别音频表达的情绪信息这是非常令人烦恼的过程。为此，非常需要一种改进的音频数据处理方法及装置、介质和计算设备，以使自动标注音频表达的情绪信息，无需人工标注，提高标注音频表达的情绪信息的准确性。在本上下文中，本专利技术的实施方式期望提供一种音频数据处理方法...

【技术保护点】
1.一种音频数据处理方法，包括：获取音频数据对应的频谱；将所述音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，所述谐音频谱中的频率为基音的频率的整数倍；以及根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息。

【技术特征摘要】
1.一种音频数据处理方法，包括：获取音频数据对应的频谱；将所述音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，所述谐音频谱中的频率为基音的频率的整数倍；以及根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息。2.根据权利要求1所述的方法，其中，所述特征信息包括频谱的能量，根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息包括：根据所述谐音频谱确定所述谐音频谱的第一能量；根据所述非谐音频谱确定所述非谐音频谱的第二能量；以及根据所述谐音频谱的第一能量和所述非谐音频谱的第二能量确定所述音频数据所表达的情绪信息。3.根据权利要求2所述的方法，其中，所述特征信息还包括频谱的节奏，所述方法还包括：根据所述谐音频谱确定所述谐音频谱的第一节奏；根据所述非谐音频谱确定所述非谐音频谱的第二节奏；以及根据所述谐音频谱的第一节奏和第一能量，所述非谐音频谱的第二节奏和第二能量确定所述音频数据所表达的情绪信息。4.根据权利要求3所述的方法，其中，根据所述谐音频谱的第一节奏和第一能量，所述非谐音频谱的第二节奏和第二能量确定所述音频数据所表达的情绪信息包括：将所述第一节奏、所述第一能量、所述第二节奏和所述第二能量输入预先训练好的神经网络；以及通过所述预先训练好的神经网络输出所述音频数据所表达的情绪信息。5.根据权利要求4所述的方法，其中，所述方法...

【专利技术属性】
技术研发人员：刘华平，叶奋翼，
申请(专利权)人：杭州网易云音乐科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人