基于语音的角色分离方法及装置制造方法及图纸

技术编号:15393046 阅读:76 留言:0更新日期:2017-05-19 05:37
本申请公开了一种基于语音的角色分离方法,包括:从语音信号中逐帧提取特征矢量,得到特征矢量序列;为特征矢量分配角色标签;利用具有角色标签的特征矢量训练深度神经网络DNN模型;根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,并输出角色分离结果;其中,所述DNN模型用于根据输入的特征矢量输出对应每个角色的概率,HMM用于描述角色间的跳转关系。本申请同时提供一种基于语音的角色分离装置。本申请提供的上述方法,由于采用了具有强大特征提取能力的DNN模型对说话人角色进行建模,比传统的GMM具有更为强大的刻画能力,对角色的刻画更加精细、准确,因此能够获得更为准确的角色分离结果。

Method and device for separating roles based on voice

The invention discloses a method for separation of speech, the role of which is based on the feature vector is extracted from the speech signal by frame, get the feature vector sequence; feature vector distribution role labels; using feature vector depth neural network training DNN model with role labels; according to the DNN model and using hidden Markov model HMM features the vector obtained from the training, determine the role sequence corresponding to the sequence of feature vectors, and the output of the separation of roles; the DNN model according to the probability output corresponding to the input feature vector of each character, HMM is used to describe the relationship between the roles of the jump. The present application also provides a voice based role separation device. The method provided by the application, due to the adoption of the DNN model has powerful ability of feature extraction for modeling speaker roles than the traditional GMM has more powerful ability to describe the portrayal of the role, more precise, accurate, so it can obtain more accurate results of the separation of roles.

【技术实现步骤摘要】
基于语音的角色分离方法及装置
本申请涉及语音识别领域,具体涉及一种基于语音的角色分离方法。本申请同时涉及一种基于语音的角色分离装置。
技术介绍
语音是人类最自然的交流沟通方式,语音识别技术则是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别是一门交叉学科,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。在实际应用中,为了能够对语音信号作更为准确的分析,不仅需要进行语音识别,而且要判别出每段语音的说话人,因此很自然地出现了对语音按照角色进行分离的需求。在日常生活、会议以及电话对话等很多场景下,都存在对话语音,而通过对对话语音的角色分离,就可以判定哪部分语音是其中一个人说的,哪部分语音是另外一个人说的。在将对话语音按照角色分离之后,结合说话人识别、语音识别,会产生更为广阔的应用空间,例如,将客服中心的对话语音按照角色分离,然后进行语音识别就可以确定客服说了什么内容,客户说了什么内容,从而可以进行相应的客服质检或者进行客户潜在需求的挖掘。现有技术中,通常采用GMM(GaussianMixtureModel—高斯混合模型)和HMM(HiddenMarkovModel—隐马尔科夫模型)进行对话语音的角色分离,即:对于每个角色使用GMM建模,对于不同角色之间的跳转采用HMM建模。由于GMM建模技术提出的时间比较早,而且其拟合任意函数的功能取决于混合高斯函数的个数,所以其对角色的刻画能力有一定的局限性,导致角色分离的准确率通常比较低,无法满足应用的需求。
技术实现思路
本申请实施例提供一种基于语音的角色分离方法和装置,以解决现有的基于GMM和HMM的角色分离技术准确率比较低的问题。本申请提供一种基于语音的角色分离方法,包括:从语音信号中逐帧提取特征矢量,得到特征矢量序列;为特征矢量分配角色标签;利用具有角色标签的特征矢量训练深度神经网络DNN模型;根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,并输出角色分离结果;其中,所述DNN模型用于根据输入的特征矢量输出对应每个角色的概率,HMM用于描述角色间的跳转关系。可选的,在所述从语音信号中逐帧提取特征矢量的步骤之后、在所述为特征矢量分配角色标签的步骤之前,执行下述操作:通过识别并剔除不包含语音内容的音频帧、将所述语音信号切分为语音段;所述为特征矢量分配角色标签包括:为各语音段中的特征矢量分配角色标签;所述判定特征矢量序列对应的角色序列包括:判定各语音段所包含的特征矢量序列对应的角色序列。可选的,所述为各语音段中的特征矢量分配角色标签包括:通过建立高斯混合模型GMM和HMM,为各语音段中的特征矢量分配角色标签;其中所述GMM用于针对每个角色、根据输入的特征矢量输出该特征矢量对应于所述角色的概率;所述根据所述DNN模型和利用特征矢量训练得到的HMM,判定各语音段所包含的特征矢量序列对应的角色序列包括:根据所述DNN模型和为各语音段中的特征矢量分配角色标签所采用的HMM,判定所述各语音段所包含的特征矢量序列对应的角色序列。可选的,所述通过建立高斯混合模型GMM和HMM,为各语音段中的特征矢量分配角色标签,包括:按照预设的初始角色数量选择相应数量的语音段,并为每个语音段分别指定不同角色;利用指定角色的语音段中的特征矢量,训练针对每个角色的GMM以及HMM;根据训练得到的GMM和HMM进行解码,获取输出各语音段所包含的特征矢量序列的概率值排序靠前的角色序列;判断所述角色序列对应的概率值是否大于预设阈值;若是,按照所述角色序列为各语音段中的特征矢量分配角色标签。可选的,当所述判断所述角色序列对应的概率值是否大于预设阈值的结果为否时,执行下述操作:根据所述角色序列,为每个语音段指定对应的角色;根据每个语音段中的特征矢量以及对应的角色,训练针对每个角色的GMM以及HMM;转到所述根据训练得到的GMM和HMM进行解码的步骤执行。可选的,所述根据所述角色序列,为每个语音段指定对应的角色,包括:针对每个语音段,将其中各特征矢量对应的角色的众数指定为所述语音段的角色。可选的,所述根据每个语音段中的特征矢量以及对应的角色,训练针对每个角色的GMM以及HMM,包括:在上一次训练得到的模型基础上采用增量方式训练所述GMM以及HMM。可选的,当所述判断所述角色序列对应的概率值是否大于预设阈值的结果为否时,执行下述操作:判断在当前角色数量下训练GMM和HMM的次数是否小于预设的训练次数上限;若是,执行所述根据所述角色序列为每个语音段指定对应的角色的步骤;若否,执行下述操作:调整角色数量,选择相应数量的语音段并为每个语音段分别指定不同角色;并转到所述利用指定角色的语音段中的特征矢量,训练针对每个角色的GMM以及HMM的步骤执行。可选的,当所述判断在当前角色数量下训练GMM和HMM的次数是否小于预设的训练次数上限的结果为否时,执行下述操作:判断当前角色数量是否符合预设要求;若是,转到所述按照所述角色序列为各语音段中的特征矢量分配角色标签的步骤执行,若否,则执行所述调整角色数量的步骤。可选的,所述预设的初始角色数量为2,所述调整角色数量包括:为当前角色数量加1。可选的,所述从语音信号中逐帧提取特征矢量,得到特征矢量序列包括:按照预先设定的帧长度对语音信号进行分帧处理,得到多个音频帧;提取各音频帧的特征矢量,得到所述特征矢量序列。可选的,所述提取各音频帧的特征矢量包括:提取MFCC特征、PLP特征、或者LPC特征。可选的,所述识别并剔除不包含语音内容的音频帧包括:采用VAD技术识别所述不包含语音内容的音频帧、并执行相应的剔除操作。可选的,在采用VAD技术执行所述识别及剔除操作、并将所述语音信号切分为语音段之后,执行下述VAD平滑操作:将时长小于预设阈值的语音段与相邻语音段合并。可选的,所述利用具有角色标签的特征矢量训练深度神经网络DNN模型包括:采用反向传播算法训练所述DNN模型。可选的,所述根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,包括:根据所述DNN模型和HMM执行解码操作,获取输出所述特征矢量序列的概率值排序靠前的角色序列,并将所述角色序列作为与所述特征矢量序列对应的角色序列。可选的,所述输出角色分离结果包括:根据特征矢量序列对应的角色序列,针对每个角色输出与其对应的特征矢量所属音频帧的起止时间信息。可选的,所述选择相应数量的语音段,包括:选择时长满足预设要求的、所述数量的语音段。相应的,本申请还提供一种基于语音的角色分离装置,包括:特征提取单元,用于从语音信号中逐帧提取特征矢量,得到特征矢量序列;标签分配单元,用于为特征矢量分配角色标签;DNN模型训练单元,用于利用具有角色标签的特征矢量训练DNN模型,其中所述DNN模型用于根据输入的特征矢量输出对应每个角色的概率;角色判定单元,用于根据所述DNN模型和利用特征矢量训练得到的HMM,判定特征矢量序列对应的角色序列并输出角色分离结果,其中所述HMM用于描述角色间的跳转关系。可选的,所述装置还包括:语音段切分单元,用于在所述特征提取单元提取特征矢量后、在触发所本文档来自技高网...
基于语音的角色分离方法及装置

【技术保护点】
一种基于语音的角色分离方法,其特征在于,包括:从语音信号中逐帧提取特征矢量,得到特征矢量序列;为特征矢量分配角色标签;利用具有角色标签的特征矢量训练深度神经网络DNN模型;根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,并输出角色分离结果;其中,所述DNN模型用于根据输入的特征矢量输出对应每个角色的概率,HMM用于描述角色间的跳转关系。

【技术特征摘要】
1.一种基于语音的角色分离方法,其特征在于,包括:从语音信号中逐帧提取特征矢量,得到特征矢量序列;为特征矢量分配角色标签;利用具有角色标签的特征矢量训练深度神经网络DNN模型;根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,并输出角色分离结果;其中,所述DNN模型用于根据输入的特征矢量输出对应每个角色的概率,HMM用于描述角色间的跳转关系。2.根据权利要求1所述的基于语音的角色分离方法,其特征在于,在所述从语音信号中逐帧提取特征矢量的步骤之后、在所述为特征矢量分配角色标签的步骤之前,执行下述操作:通过识别并剔除不包含语音内容的音频帧、将所述语音信号切分为语音段;所述为特征矢量分配角色标签包括:为各语音段中的特征矢量分配角色标签;所述判定特征矢量序列对应的角色序列包括:判定各语音段所包含的特征矢量序列对应的角色序列。3.根据权利要求2所述的基于语音的角色分离方法,其特征在于,所述为各语音段中的特征矢量分配角色标签包括:通过建立高斯混合模型GMM和HMM,为各语音段中的特征矢量分配角色标签;其中所述GMM用于针对每个角色、根据输入的特征矢量输出该特征矢量对应于所述角色的概率;所述根据所述DNN模型和利用特征矢量训练得到的HMM,判定各语音段所包含的特征矢量序列对应的角色序列包括:根据所述DNN模型和为各语音段中的特征矢量分配角色标签所采用的HMM,判定所述各语音段所包含的特征矢量序列对应的角色序列。4.根据权利要求3所述的基于语音的角色分离方法,其特征在于,所述通过建立高斯混合模型GMM和HMM,为各语音段中的特征矢量分配角色标签,包括:按照预设的初始角色数量选择相应数量的语音段,并为每个语音段分别指定不同角色;利用指定角色的语音段中的特征矢量,训练针对每个角色的GMM以及HMM;根据训练得到的GMM和HMM进行解码,获取输出各语音段所包含的特征矢量序列的概率值排序靠前的角色序列;判断所述角色序列对应的概率值是否大于预设阈值;若是,按照所述角色序列为各语音段中的特征矢量分配角色标签。5.根据权利要求4所述的基于语音的角色分离方法,其特征在于,当所述判断所述角色序列对应的概率值是否大于预设阈值的结果为否时,执行下述操作:根据所述角色序列,为每个语音段指定对应的角色;根据每个语音段中的特征矢量以及对应的角色,训练针对每个角色的GMM以及HMM;转到所述根据训练得到的GMM和HMM进行解码的步骤执行。6.根据权利要求5所述的基于语音的角色分离方法,其特征在于,所述根据所述角色序列,为每个语音段指定对应的角色,包括:针对每个语音段,将其中各特征矢量对应的角色的众数指定为所述语音段的角色。7.根据权利要求5所述的基于语音的角色分离方法,其特征在于,所述根据每个语音段中的特征矢量以及对应的角色,训练针对每个角色的GMM以及HMM,包括:在上一次训练得到的模型基础上采用增量方式训练所述GMM以及HMM。8.根据权利要求5所述的基于语音的角色分离方法,其特征在于,当所述判断所述角色序列对应的概率值是否大于预设阈值的结果为否时,执行下述操作:判断在当前角色数量下训练GMM和HMM的次数是否小于预设的训练次数上限;若是,执行所述根据所述角色序列为每个语音段指定对应的角色的步骤;若否,执行下述操作:调整角色数量,选择相应数量的语音段并为每个语音段分别指定不同角色;并转到所述利用指定角色的语音段中的特征矢量,训练针对每个角色的GMM以及HMM的步骤执行。9.根据权利要求8所述的基于语音的角色分离方法,其特征在于,当所述判断在当前角色数量下训练GMM和HMM的次数是否小于预设的训练次数上限的结果为否时,执行下述操作:判断当前角色数量是否符合预设要求;若是,转到所述按照所述角色序列为各语音段中的特征矢量分配角色标签的步骤执行,若否,则执行所述调整角色数量的步骤。10.根据权利要求8所述的基于语音的角色分离方法,其特征在于,所述预设的初始角色数量为2,所述调整角色数量包括:为当前角色数量加1。11.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述从语音信号中逐帧提取特征矢量,得到特征矢量序列包括:按照预先设定的帧长度对语音信号进行分帧处理,得到多个音频帧;提取各音频帧的特征矢量,得到所述特征矢量序列。12.根据权利要求11所述的基于语音的角色分离方法,其特征在于,所述提取各音频帧的特征矢量包括:提取MFCC特征、PLP特征、或者LPC特征。13.根据权利要求2所述的基于语音的角色分离方法,其特征在于,所述识别并剔除不包含语音内容的音频帧包括:采用VAD技术识别所述不包含语音内容的音频帧、并执行相应的剔除操作。14.根据权利要求13所述的基于语音的角色分离方法,其特征在于,在采用VAD技术执行所述识别及剔除操作、并将所述语音信号切分为语音段之后,执行下述VAD平滑操作:将时长小于预设阈值的语音段与相邻语音段合并。15.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述利用具有角色标签的特征矢量训练深度神经网络DNN模型包括:采用反向传播算法训练所述DNN模型。16.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,包括:根据所述DNN模型和HMM执行解码操作,获取输出所述特征矢量序列的概率值排序靠前的角色序列,并将所述角色序列作为与所述特征矢量序列对应的角色序列。17.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述输出角色分离结果包括:根据特征矢量序列对应的角色序列,针对每个角色输出与其对应的特征矢量所属音频帧的起止时间信息。18.根据权利要求4或8所述的基于语音的角...

【专利技术属性】
技术研发人员:李晓辉李宏言
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1