一种基于生成对抗的歌曲情绪识别方法及装置制造方法及图纸

技术编号:43368901 阅读:47 留言:0更新日期:2024-11-19 17:50
本发明专利技术提供一种基于生成对抗的歌曲情绪识别方法及装置,属于人工智能技术领域,把原始的歌曲音频输入到生成器产生扰动幅度和扰动位置,将扰动幅度与扰动位置相乘来计算出稀疏扰动,把稀疏扰动添加到原始歌曲音频样本中创建出对抗音频样本,设置威胁歌曲情感识别模型,用于指导生成器网络训练生成特定的对抗性扰动,以攻击特定的语音情感识别模型,设置损失函数来平衡攻击强度、稀疏性和量化误差。通过添加最小化的扰动来有效减少引入偏差并欺骗语音情感识别模型,同时保持扰动的稀疏性和可迁移性,基于生成器的方法专注于学习训练数据的分布,从而产生更多可迁移的稀疏波动,避免偏差的引入,节省大量的学习训练时间。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于生成对抗的歌曲情绪识别方法及装置


技术介绍

1、歌曲蕴含着丰富的人类情绪信息,歌曲情绪识别一直是人机交互领域的重要课题。音乐是一种强大的情绪表达工具,歌曲情绪识别模型可以从定量的角度去分析和理解音乐是如何传达和引发特定情感的。歌曲情绪识别模型的稳健性至关重要,特别是在音乐教育、音乐推荐系统等可靠性要求较高的领域。近年来,人们对能够直接处理原始音频信号的深度神经网络(deep neural networks,dnn)越来越感兴趣,因为dnn绕过了手动特征提取的需要,并有可能为歌曲情绪识别任务提供更全面的表示。在此基础上,如何提升音频在面对深度神经网络对抗中的鲁棒性也已成为热门研究领域。在本文中,我们提出了一种端到端基于生成器的稀疏且可迁移方法,该方法能够高效地生成成功的稀疏对抗样本,对于提高歌曲情绪识别模型的鲁棒性和安全性具有重要的现实意义。

2、现有完全训练法中,有tzirakis等人最初提出了一种卷积递归神经网络结构emo18,用于连续情感识别。emo18由用于从原始音频信号中提取特征的3个卷积层和用本文档来自技高网...

【技术保护点】

1.一种基于生成对抗的歌曲情绪识别方法,其特征在于:把原始的歌曲音频输入到生成器产生扰动幅度和扰动位置,将扰动幅度与扰动位置相乘来计算出稀疏扰动,把稀疏扰动添加到原始歌曲音频样本中创建出对抗音频样本,设置威胁歌曲情感识别模型,用于指导生成器网络训练生成特定的对抗性扰动,以攻击特定的语音情感识别模型,设置损失函数来平衡攻击强度、稀疏性和量化误差,以提高攻击的效果和可迁移性,实现歌曲情感类别识别。

2.根据权利要求1所述的一种基于生成对抗的歌曲情绪识别方法,其特征在于:原始的歌曲音频包括导音、主音和属音,属音包括连音、滑音震音和颤音的有情绪表达功能的音乐元素。

3.根...

【技术特征摘要】

1.一种基于生成对抗的歌曲情绪识别方法,其特征在于:把原始的歌曲音频输入到生成器产生扰动幅度和扰动位置,将扰动幅度与扰动位置相乘来计算出稀疏扰动,把稀疏扰动添加到原始歌曲音频样本中创建出对抗音频样本,设置威胁歌曲情感识别模型,用于指导生成器网络训练生成特定的对抗性扰动,以攻击特定的语音情感识别模型,设置损失函数来平衡攻击强度、稀疏性和量化误差,以提高攻击的效果和可迁移性,实现歌曲情感类别识别。

2.根据权利要求1所述的一种基于生成对抗的歌曲情绪识别方法,其特征在于:原始的歌曲音频包括导音、主音和属音,属音包括连音、滑音震音和颤音的有情绪表达功能的音乐元素。

3.根据权利要求1所述的一种基于生成对抗的歌曲情绪识别方法,其特征在于:扰动幅度用于限制每帧的扰动值,扰动位置用于达到稀疏为目标,生成器的训练旨在欺骗本地对抗歌曲情绪识别模型,同时生成的对抗音频样本能够迁移到对抗另外未知的目标歌曲情绪识别模型。

4.根据权利要求1所述的一种基于生成对抗的歌曲情绪识别方法,其特征在于:生成器为wave-u-net网络,wave-u-net网络包括下采样阶段和上采样阶段,在下采...

【专利技术属性】
技术研发人员:成涵周腾寿彬彬李鹏博
申请(专利权)人:绍兴文理学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1