System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 使用深度学习从音频数据中的语音推理情绪制造技术_技高网
当前位置: 首页 > 专利查询>辉达公司专利>正文

使用深度学习从音频数据中的语音推理情绪制造技术

技术编号:40676059 阅读:4 留言:0更新日期:2024-03-18 19:14
深度神经网络可以被训练以从输入音频推理情绪数据。该网络可以是基于转换器的网络,其可以推理一组情绪或情绪类别的概率值。情绪概率值可以使用一个或更多个启发式方法进行修改,例如以提供情绪确定随时间的平滑性,或通过用户界面进行修改,其中用户可以适当地修改情绪确定。用户还可以提供先前的情绪值,以便与这些情绪确定值相混合。所确定的情绪值可以作为输入提供给基于情绪的操作,例如以提供音频驱动的语音动画。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、存在可能希望确定某人在发出语音(例如由捕获的音频数据表示的语音)时表现出的情绪类型的各种情况。某些先前的方法使用机器学习来尝试从输入的音频中推理情绪,但这些方法通常仅限于那些针对其训练各自模型的人或说话者,但不能很好地推广到其他说话者。这些网络通常也是基于频谱图的,这需要将音频转换为频谱图表示,然后用基于图像的分析方法进行分析,但这并没有产生最佳的结果。这样的方法还需要针对不同的说话者训练多个模型,这可能是复杂的且计算成本很高,或者导致对任何输入语音推理的情绪有不同程度的不准确。更进一步,先前的方法将为整个音频片段确定单一的情绪,这并没有捕获说话者在该片段期间的情绪状态的任何变化。


技术实现思路

【技术保护点】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的计算机实现的方法,其中所述一个或更多个值包括所述一种或更多种情绪中的每种情绪的相应的一个或更多个概率值,并且所述一个或更多个值被归一化并求和为绝对值。

3.根据权利要求1所述的计算机实现的方法,其中所述一种或更多种情绪包括愤怒、厌恶、恐惧、喜悦、悲伤或中性情绪中的至少一种。

4.根据权利要求1所述的计算机实现的方法,进一步包括:

5.根据权利要求4所述的计算机实现的方法,进一步包括:

6.根据权利要求4所述的计算机实现的方法,进一步包括:

7.根据权利要求6所述的计算机实现的方法,进一步包括:

8.根据权利要求1所述的计算机实现的方法,进一步包括:

9.根据权利要求8所述的计算机实现的方法,进一步包括:

10.根据权利要求1所述的计算机实现的方法,其中所述音频数据使用音频文件格式表示。

11.一种处理器,包括:

12.根据权利要求11所述的处理器,其中所述一种或更多种情绪包括预定的一组情绪,其中所述预定的一组情绪至少包括愤怒、厌恶、恐惧、喜悦、悲伤或中性。

13.根据权利要求11所述的处理器,其中所述一个或更多个处理单元进一步用于:

14.根据权利要求11所述的处理器,其中所述一个或更多个处理单元进一步用于:

15.根据权利要求11所述的处理器,其中所述音频文件格式包括未压缩的音频文件格式、无损压缩音频文件格式或有损压缩音频文件格式中的至少一种。

16.一种系统,包括:

17.根据权利要求16所述的系统,其中所述音频数据对应于音频文件格式。

18.根据权利要求16所述的系统,其中所述音频数据使用所述转换器神经网络以音频文件格式进行处理,并且所述音频数据使用所述神经网络以图像文件格式进行处理。

19.根据权利要求16所述的系统,其中所述一个或更多个特征点对应于所述虚拟对象的一个或更多个面部特征或一个或更多个身体特征。

20.根据权利要求16的所述系统,其中所述系统包括以下中的至少一个:

...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的计算机实现的方法,其中所述一个或更多个值包括所述一种或更多种情绪中的每种情绪的相应的一个或更多个概率值,并且所述一个或更多个值被归一化并求和为绝对值。

3.根据权利要求1所述的计算机实现的方法,其中所述一种或更多种情绪包括愤怒、厌恶、恐惧、喜悦、悲伤或中性情绪中的至少一种。

4.根据权利要求1所述的计算机实现的方法,进一步包括:

5.根据权利要求4所述的计算机实现的方法,进一步包括:

6.根据权利要求4所述的计算机实现的方法,进一步包括:

7.根据权利要求6所述的计算机实现的方法,进一步包括:

8.根据权利要求1所述的计算机实现的方法,进一步包括:

9.根据权利要求8所述的计算机实现的方法,进一步包括:

10.根据权利要求1所述的计算机实现的方法,其中所述音频数据使用音频文件格式表示。

11.一种处理器,包括:

12.根据权利要求11所述的处理器,...

【专利技术属性】
技术研发人员:D·A·科罗布琴科I·S·费多罗夫
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1