情感语音处理制造技术

技术编号:13205148 阅读:59 留言:0更新日期:2016-05-12 12:24
本文描述用于情感或说话方式识别和/或聚类的方法,包括接收一个或多个语音样本,通过从所述一个或多个语音样本的每一帧提取一个或多个声学特征生成一组训练数据,以及从所述一组训练数据生成模型,其中所述模型辨识在所述一组训练数据中的情感或说话方式相关信息。所述方法可以进一步包括接收一个或多个测试语音样本,通过从所述一个或多个测试语音的每一帧提取一个或多个声学特征生成一组测试数据,以及使用所述模型转换所述一组测试数据以更好地表示情感和/或说话方式相关信息,以及使用用于聚类和/或分类的所述转换数据来发现具有相似的情感或说话方式的语音。

【技术实现步骤摘要】
【专利说明】 相关申请案 本申请要求2014年7月28日提交的共同受让的美国临时专利申请号62/030,013的 优先权,其全部公开内容并入在此以供参考。本申请也要求2015年6月18日提交的共同受让 的美国专利申请号14/743,673的优先权,其全部公开内容并入在此以供参考。
本公开涉及语音处理,而且更具体地涉及情感语音处理
技术介绍
情感语音处理对于包括用户接口、游戏和更多应用的许多应用是重要的。然而,处 理情感语音是非常具有挑战性的。例如,情感语音特性与朗读/会话语音有显著的不同,且 因此当遇到情感语音时用朗读语音训练的统计声音识别模型表现不佳。另外,因为不同的 说话者有表达他们情感的不同的方法,并因此类是不明确的且难以区分,所以情感识别是 困难的。
技术实现思路
本公开的方面呈现在该上下文内。【附图说明】 通过结合附图考虑以下详细描述可以容易理解本公开的教导,其中: 图1是示出了生成可以结合本公开的方面使用的高斯混合模型(GMM)超向量的流 程图。 图2是示出了可以结合本公开的方面使用的概率线性判别分析(PLDA)模型的训练 的流程图。 图3是示出了可以结合本公开的方面使用的口语单词的情感聚类或情感分类的流 程图。 图4是根据本公开的方面示出了用于情感语音处理的装置的方框图。 图5是根据本公开的方面示出了在语音识别中使用情感聚类或情感分类的流程 图。【具体实施方式】 虽然为了说明目的以下详细描述包含很多具体细节,但是本领域技术人员将理解 对于以下细节的很多变化和改变都在本专利技术的保护范围内。因此,在对要求保护的本专利技术 不失一般性并且没有限制强加在其上的情况下,,阐述了以下描述的本公开的方面。 简介本公开的方面针对使用概率线性判别分析(PLDA)使语音表示规范化的系统,以使 在PLDA子空间中语音特征将更多地是情感/说话方式相关的且更少地是说话者相关的。换 句话说,PLDA的目标是从语音中除去说话者信息,以使其更多地是情感/说话方式相关的。 PLDA可以被应用于高斯混合模型(GMM)均值/方差超向量,或者其可以被直接应用在声学特 征上。早期的实验示出当PLDA被应用时情感聚类准确度已经显著改善。另外,初步实验示出 以语言(即,德语)学习 PLDA转换是可能的,且为了情感聚类/识别的目的将其应用于不同的 语言(即,英语)是可能的。因此,通过从收集自多种语言的情感语音数据学习 PLDA转换来学 习通用的转换也是可能的。提出的方法可以被用于情感语音的聚类、情感语音的分类、说话 方式的聚类、说话方式的分类,使用自动发现的情感聚类的用于声音识别的情感特定声学 模型训练,或者使用自动创建的聚类的用于声音识别的说话方式(快/慢/正常/唱歌,等等) 声学模型训练。 提出的方法可以被用于情感语音的聚类、情感语音的分类、说话方式的聚类、说话 方式的分类。例如,使用自动发现的情感聚类,情感特定的声学模型可以被训练用于声音识 另IJ。类似地,使用自动聚类的说话方式(快/慢/正常/唱歌,等等),特定的声学模型可以被训 练用于声音识别,语言模型参数(即,插入损失)可以为特定的聚类被调整,等等。 实施例根据本公开的方面,情感聚类方法可以基于概率线性判别分析(PLDA)。举例来说, 每个情感的话语可以被建模为高斯混合模型(GMM)均值超向量。图1示出了生成GMM超向量 (GMM SV)的示例。起初,一个或多个语音信号101被接收到。每个语音信号101可以是人的语 音的任何一段。举例来说且并非为限制,所述信号101可以包含单个音节、词、句子或这些的 任意组合。举例来说且并非为限制,所述语音信号101可以用本地麦克风来捕获或者通过网 络进行接收,在计算机存储器或其他非暂时性存储介质中记录、数字化和/或存储。之后,所 述语音信号101可以被用于PLDA模型训练和/或用于情感聚类或情感分类。在一些实施例 中,用于PLDA模型训练的所述语音信号(即,训练数据101')可以与用于情感识别的所述语 音信号(即,测试数据101")不同。换句话说,不要求所述训练数据集101'具有与所述测试数 据集101"相同的情感/说话方式或说话者。 一个或多个语音信号101(或训练数据101'或测试数据101")通过处理阶段110,所 述处理阶段110操作来从每个话语101的每一帧提取声学特征。特征诸如梅尔频率倒谱系数 (MFCC)、梅尔滤波器组特征等是用于情感识别常用的低级的谱特征。举例来说且并非为限 制,39维MFCC(包括能量、S(delta)和两倍的S(delta)的13个系数)可以被使用。在特征提取 之后,从每个话语提取的所述特征被发送到模型适应的所述处理阶段120。所述提取的特征 可以被建模为高斯混合模型(GMM),而且由所述均值和/或方差超向量表示。例如,以前训练 的通用背景模型(UBM)可以适应于从每个话语提取的所述特征向量。对于UBM训练,例如,来 自很多说话者的中性语音可以被使用。适应技术诸如最大后验概率(MAP)、最大似然线性回 归(MLLR)、约束的最大似然线性回归(C-MLLR)等可以被用于适应。获得的GMM的均值和/或 方差向量被堆叠以构造每一话语的超向量103。用该处理,所有的话语,或训练数据101'或 测试数据10Γ,可以被建模为GMM超向量。此外,其他的特征如说话速率、音节速率、音高特 征、能量特征、音长特征等可以被提取且被添加到所述GMM SV。接下来,从训练数据101'收集的GMM超向量103可以被用于训练如图2中所示的 PLDA模型105。所述PLDA训练数据应该只包括对于每个情感具有各种样本的许多不同的情 感。在所述训练处理阶段130,输入到所述PLDA训练的将是来自训练话语连同它们的情感标 签的一堆GMM超向量103,而且输出将是PLDA模型参数105。所述PLDA模型参数可以被存储、 传输或者被用于将PLDA模型105应用于测试数据101"。 如在图3中所示,从所述测试数据101"收集的GMM SV 103在转换阶段140被转换为 降维GMM超向量。接下来,在阶段150的聚类方法诸如K-均值、分级聚类等可以被应用于聚类 所述降维的GMM超向量,从而产生最终的情感分类/聚类170。所述PLDA模型可以用来自所述 测试数据的不同的情感数据库、用不同的情感类别、说话者、或甚至语言进行训练。使用 PLDA模型的优势是其辨识所述GMM均值超向量空间的情感相关子空间。 提出的情感聚类方法是半监督的。对于聚类(在阶段150),所述方法不训练情感模 型。代替地,使用单独的情感数据集训练PLDA模型105。不要求用于所述PLDA模型的所述训 练数据101'具有与所述测试数据101"相同的情感、说话者、语言,等当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种方法,其包括:接收一个或多个语音样本,其中所述一个或多个语音样本特征在于来自一个或多个说话者的一个或多个情感或者说话方式;通过从所述一个或多个样本语音的每一帧提取一个或多个声学特征生成一组训练数据;以及从所述一组训练数据生成模型,其中所述模型辨识在所述一组训练数据中的情感或说话方式相关信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:O卡林利阿卡巴卡克陈如新
申请(专利权)人:索尼电脑娱乐公司
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1