语音分割的方法及装置制造方法及图纸

技术编号:15507848 阅读:365 留言:0更新日期:2017-06-04 02:22
本发明专利技术涉及一种语音分割的方法及装置,所述语音分割的方法包括:自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。本发明专利技术能够有效提高语音分割的精度,特别是对于对话交替频繁、以及有交叠的语音,语音分割的效果较好。

Method and apparatus for speech segmentation

The invention relates to a method and a device for speech segmentation, including the method of speech segmentation automatic response system to mixed voice sent by the terminal when receiving the mixed speech is divided into a plurality of short speech segments, and speaker identification corresponding to each annotation phrase segment using recurrent neural network on time; the speaker identifies the corresponding phrase segment to establish the model of voice, voice model adjusts the hybrid segmentation boundary correspondence based on the speech, to separate the effective speech segment of each speaker identifier corresponding to the. The present invention can effectively improve the accuracy of speech segmentation, especially for alternating speech frequent and overlapping speech, and the effect of speech segmentation is better.

【技术实现步骤摘要】
语音分割的方法及装置
本专利技术涉及语音处理
,尤其涉及一种语音分割的方法及装置。
技术介绍
目前,呼叫中心接收到的语音很多都混杂有多人的语音,这时需要先对语音进行语音分割(speakerdiarization),才能进一步对目标语音进行语音分析。语音分割是指:在语音处理领域,当多个说话人的语音被合并录在一个声道中时,把信号中每个说话人的语音分别进行提取。传统的语音分割技术是基于全局背景模型和高斯混合模型进行分割,由于技术的限制,这种语音分割的方法分割的精度并不高,特别是对于对话交替频繁、以及有交叠的对话分割效果差。
技术实现思路
本专利技术的目的在于提供一种语音分割的方法及装置,旨在有效提高语音分割的精度。为实现上述目的,本专利技术提供一种语音分割的方法,其特征在于,所述语音分割的方法包括:S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。优选地,所述步骤S1包括:S11,获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;S12,对所述长语音段进行分帧,以提取每一长语音段的声学特征;S13,对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;S14,利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。优选地,所述步骤S13包括:对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。优选地,所述步骤S2包括:S21,利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;S22,基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;S23,基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;S24,基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;S25,迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。优选地,所述步骤S2之后还包括:基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。为实现上述目的,本专利技术还提供一种语音分割的装置,所述语音分割的装置包括:分割模块,用于在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;调整模块,用于利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。优选地,所述分割模块包括:去除单元,用于获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;分帧单元,用于对所述长语音段进行分帧,以提取每一长语音段的声学特征;切分单元,用于对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;聚类单元,用于利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。优选地,所述切分单元具体用于对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。优选地,所述调整模块包括:建模单元,用于利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;计算单元,用于基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;第一调整单元,用于基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;第二调整单元,用于基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;迭代单元,用于迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。优选地,所述语音分割的装置还包括:反馈模块,用于基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。本专利技术的有益效果是:本专利技术首先将混合语音进行分割,分割成多个短语音段,每一短语音段对应标识一个说话人,利用时间递归神经网络对各短语音段建立声纹模型,由于利用时间递归神经网络建立的声纹模型能够关联说话人跨时间点的声音信息,因此基于该声纹模型实现对短语音段的分割边界的调整,能够有效提高语音分割的精度,特别是对于对话交替频繁、以及有交叠的语音,语音分割的效果较好。附图说明图1为本专利技术语音分割的方法一实施例的流程示意图;图2为图1所示步骤S1的细化流程示意图;图3为图1所示步骤S2的细化流程示意图;图4为本专利技术语音分割的装置一实施例的结构示意图;图5为图4所示分割模块的结构示意图;图6为图4所示调整模块的结构示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,图1为本专利技术语音分割的方法一实施例的流程示意图,该语音分割的方法包括以下步骤:步骤S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;本实施例中可应用于呼叫中心的自动应答系统中,例如保险呼叫中心的自动应答系统、各种客服呼叫中心的自动应答系统等等。自动应答系统接收到终端发送的原始的混合语音,该混合语音中混合有多种不同的声源产生的声音,例如有多人说话混合的声音,多人说话的声音与其他噪声混合的声音等等。本实施例可以利用预定的方法将混合语音分割成多个短语音段,例如可以利用高斯混合模型(GaussianMixtureModel,GMM)将混合语音分割成多个短语音段,当然,也可以利用其他传统的方法将混合语音分割成多个短语音段。其中,经本实施例的语音分割后,每一短语音段应只对应一说话人,不同的短语音段中可能有多个短语音段属于同一个说话人,将同一个说话人的不同短语音段进行相同的标识。步骤S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。本实施例中,时间递归神经网络模型(Long-ShortTermMemory,LSTM)拥有递归神经网络在传统前向反馈神经网络中引入的定向循环,用以处理层间输入前后、层内输出前后的关联。用时间递归神经网络在语音序列上建模,可以得到跨越时间点的语音信号特征,可以用于对关联信息处于任何长度、任何位置的语音序列进行处理。时间递归神经网络模型通过神经网本文档来自技高网...
语音分割的方法及装置

【技术保护点】
一种语音分割的方法,其特征在于,所述语音分割的方法包括:S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。

【技术特征摘要】
1.一种语音分割的方法,其特征在于,所述语音分割的方法包括:S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。2.根据权利要求1所述的语音分割的方法,其特征在于,所述步骤S1包括:S11,获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;S12,对所述长语音段进行分帧,以提取每一长语音段的声学特征;S13,对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;S14,利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。3.根据权利要求2所述的语音分割的方法,其特征在于,所述步骤S13包括:对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。4.根据权利要求2或3所述的语音分割的方法,其特征在于,所述步骤S2包括:S21,利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;S22,基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;S23,基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;S24,基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;S25,迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。5.根据权利要求1至3任一项所述的语音分割的方法,其特征在于,所述步骤S2之后还包括:基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。6.一种语音分割的装置,其特征在于,所述语...

【专利技术属性】
技术研发人员:王健宗郭卉肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1