情感语音处理制造技术

技术编号：13205148 阅读：59 留言：0更新日期：2016-05-12 12:24

本文描述用于情感或说话方式识别和/或聚类的方法，包括接收一个或多个语音样本，通过从所述一个或多个语音样本的每一帧提取一个或多个声学特征生成一组训练数据，以及从所述一组训练数据生成模型，其中所述模型辨识在所述一组训练数据中的情感或说话方式相关信息。所述方法可以进一步包括接收一个或多个测试语音样本，通过从所述一个或多个测试语音的每一帧提取一个或多个声学特征生成一组测试数据，以及使用所述模型转换所述一组测试数据以更好地表示情感和/或说话方式相关信息，以及使用用于聚类和/或分类的所述转换数据来发现具有相似的情感或说话方式的语音。

全部详细技术资料下载

【技术实现步骤摘要】
【专利说明】相关申请案本申请要求2014年7月28日提交的共同受让的美国临时专利申请号62/030,013的优先权，其全部公开内容并入在此以供参考。本申请也要求2015年6月18日提交的共同受让的美国专利申请号14/743,673的优先权，其全部公开内容并入在此以供参考。
本公开涉及语音处理，而且更具体地涉及情感语音处理。
技术介绍
情感语音处理对于包括用户接口、游戏和更多应用的许多应用是重要的。然而，处理情感语音是非常具有挑战性的。例如，情感语音特性与朗读/会话语音有显著的不同，且因此当遇到情感语音时用朗读语音训练的统计声音识别模型表现不佳。另外，因为不同的说话者有表达他们情感的不同的方法，并因此类是不明确的且难以区分，所以情感识别是困难的。
技术实现思路
本公开的方面呈现在该上下文内。【附图说明】通过结合附图考虑以下详细描述可以容易理解本公开的教导，其中：图1是示出了生成可以结合本公开的方面使用的高斯混合模型（GMM)超向量的流程图。图2是示出了可以结合本公开的方面使用的概率线性判别分析(PLDA)模型的训练的流程图。图3是示出了可以结合本公开的方面使用的口语单词的情感聚类或情感分类的流程图。图4是根据本公开的方面示出了用于情感语音处理的装置的方框图。图5是根据本公开的方面示出了在语音识别中使用情感聚类或情感分类的流程图。【具体实施方式】虽然为了说明目的以下详细描述包含很多具体细节，但是本领域技术人员将理解对于以下细节的很多变化和改变都在本专利技术的保护范围内。因此，在对要求保护的本专利技术不失一般性...

【技术保护点】
一种方法，其包括：接收一个或多个语音样本，其中所述一个或多个语音样本特征在于来自一个或多个说话者的一个或多个情感或者说话方式；通过从所述一个或多个样本语音的每一帧提取一个或多个声学特征生成一组训练数据；以及从所述一组训练数据生成模型，其中所述模型辨识在所述一组训练数据中的情感或说话方式相关信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：O卡林利阿卡巴卡克，陈如新，
申请(专利权)人：索尼电脑娱乐公司，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人