The invention relates to a method and a device for speech segmentation, including the method of speech segmentation automatic response system to mixed voice sent by the terminal when receiving the mixed speech is divided into a plurality of short speech segments, and speaker identification corresponding to each annotation phrase segment using recurrent neural network on time; the speaker identifies the corresponding phrase segment to establish the model of voice, voice model adjusts the hybrid segmentation boundary correspondence based on the speech, to separate the effective speech segment of each speaker identifier corresponding to the. The present invention can effectively improve the accuracy of speech segmentation, especially for alternating speech frequent and overlapping speech, and the effect of speech segmentation is better.
【技术实现步骤摘要】
语音分割的方法及装置
本专利技术涉及语音处理
,尤其涉及一种语音分割的方法及装置。
技术介绍
目前,呼叫中心接收到的语音很多都混杂有多人的语音,这时需要先对语音进行语音分割(speakerdiarization),才能进一步对目标语音进行语音分析。语音分割是指:在语音处理领域,当多个说话人的语音被合并录在一个声道中时,把信号中每个说话人的语音分别进行提取。传统的语音分割技术是基于全局背景模型和高斯混合模型进行分割,由于技术的限制,这种语音分割的方法分割的精度并不高,特别是对于对话交替频繁、以及有交叠的对话分割效果差。
技术实现思路
本专利技术的目的在于提供一种语音分割的方法及装置,旨在有效提高语音分割的精度。为实现上述目的,本专利技术提供一种语音分割的方法,其特征在于,所述语音分割的方法包括:S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。优选地,所述步骤S1包括:S11,获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;S12,对所述长语音段进行分帧,以提取每一长语音段的声学特征;S13,对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;S14,利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音 ...
【技术保护点】
一种语音分割的方法,其特征在于,所述语音分割的方法包括:S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。
【技术特征摘要】
1.一种语音分割的方法,其特征在于,所述语音分割的方法包括:S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。2.根据权利要求1所述的语音分割的方法,其特征在于,所述步骤S1包括:S11,获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;S12,对所述长语音段进行分帧,以提取每一长语音段的声学特征;S13,对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;S14,利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。3.根据权利要求2所述的语音分割的方法,其特征在于,所述步骤S13包括:对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。4.根据权利要求2或3所述的语音分割的方法,其特征在于,所述步骤S2包括:S21,利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;S22,基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;S23,基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;S24,基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;S25,迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。5.根据权利要求1至3任一项所述的语音分割的方法,其特征在于,所述步骤S2之后还包括:基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。6.一种语音分割的装置,其特征在于,所述语...
【专利技术属性】
技术研发人员:王健宗,郭卉,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。