本发明专利技术公开了一种判断说话人数目的方法及系统,包括:接收语音信号;提取所述语音信号的语音信号特征;根据所述语音信号的语音信号特征对所述语音信号进行分割,得到分割信号段;将所述分割信号段聚类成指定个数的语音信号类;根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割;计算过程:根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度;计算过程结束后,根据计算结果确定说话人数目。本发明专利技术由于对语音信号进行重分割,可以消除现有技术中对语音信号进行分割时的步长限制的影响,并通过计算比较不同语音信号类之间的相似度,提高后续说话人数目判断的准确度。
【技术实现步骤摘要】
本专利技术涉及语音信号处理领域,具体涉及一种判断说话人数目的方法及系统。
技术介绍
随着语音信号处理技术的不断发展,语音信号处理的对象由原来仅包括单说话人 场景,逐步开始包括双说话人场景,例如电话记录;甚至多说话人场景,例如会议记录;此 外,目前的语音信号处理的数据由原来的时长为几秒,几十秒的短时音频逐步扩展到几十 分钟,甚至几小时的长时音频。对于双说话人场景或多说话人场景,尤其是长时音频,语音 记录的识别效果跟说话人分离的效果密切相关,而准确的判断说话人数目,能够帮助分析 语音记录的场景,优化说话人分离的效果,从而制定相应的策略提升识别的效果,例如,针 对某个说话人的自适应识别策略。 现有的说话人数目判断多是基于说话人变化点检测,对语音信号进行分割,以达 到对说话人进行分割,再对分割后的各段语音信号基于贝叶斯信息准则进行聚类,最终确 定说话人数目。现有技术中判断说话人数目结果的准确性完全依赖于说话人分割和聚类的 准确性,而说话人分割受到步长的影响,步长多是根据经验确定,所以难免出现设定的步长 不合适的情况,从而影响说话人分割的准确性及后续聚类的准确性;此外,在聚类时贝叶斯 距离受语音时长的影响,主要表现为一般情况下语音时长越长其贝叶斯距离越大,因而在 对不同时长的语音进行说话人聚类时,难以用统一的阈值进行聚类停止条件的判断,使得 说话人数目判断存在较大误差,最终影响语音识别效果。
技术实现思路
本专利技术实施例提供一种判断说话人数目的方法及系统,解决对于双说话人场景或 多说话人场景,尤其是长时音频,通过现有技术判断的说话人数目不准确的问题,以提高判 断说话人数目的准确度。 为此,本专利技术实施例提供如下技术方案: 一种判断说话人数目的方法,包括: 接收语音信号; 提取所述语音信号的语音信号特征; 根据所述语音信号的语音信号特征对所述语音信号进行分割,得到分割信号段; 将所述分割信号段聚类成指定个数的语音信号类; 根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分 割; 计算过程:根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较 不同语音信号类之间的相似度; 计算过程结束后,根据计算结果确定说话人数目。 优选地,所述根据所述语音信号类中各分割信号段的语音信号特征对所述语音信 号进行重分割包括: (1)利用所述语音信号的语音信号特征训练一个总的高斯混合模型; (2)利用各语音信号类中各分割信号段的语音信号特征在该总的高斯混合模型上 进行最大后验概率自适应,得到各类的高斯混合模型; (3)利用各类的高斯混合模型对所述语音信号进行重分割,并确定重分割后语音 信号类中各分割信号段; 重复上述步骤(2)至步骤(3)直至完成设定的重复次数。 优选地,所述计算过程包括: 利用总体变化因子模型提取当前各语音信号类的说话人因子向量; 根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度; 如果得到的最大相似度大于设定的第一阈值,则将最大相似度对应的两个语音信 号类进行合并;然后重复计算过程; 否则,计算过程结束。 优选地,所述计算过程包括: 利用总体变化因子模型提取当前各语音信号类的说话人因子向量; 利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话 人因子向量; 根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相 似度; 如果得到的最大相似度大于设定的第二阈值,则将最大相似度对应的两个语音信 号类进行合并;然后重复计算过程; 否则,计算过程结束。 优选地,所述计算过程包括: 利用总体变化因子模型提取当前各语音信号类的说话人因子向量; 利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间 与信道无关的PLDA得分; 如果得到的最大PLDA得分大于设定的第三阈值,则将最大PLDA得分对应的两个 语音信号类进行合并;然后重复计算过程; 否则,计算过程结束。 优选地,所述根据计算结果确定说话人数目包括: 将当前语音信号类的数目作为说话人数目。 -种判断说话人数目的系统,包括: 接收模块,用于接收语音信号; 特征提取模块,用于提取所述语音信号的语音信号特征; 分割模块,用于根据所述语音信号的语音信号特征对所述语音信号进行分割,得 到分割信号段; 聚类模块,用于将所述分割信号段聚类成指定个数的语音信号类; 重分割模块,用于根据所述语音信号类中各分割信号段的语音信号特征对所述语 音信号进行重分割; 相似度获取模块,用于根据重分割后语音信号类中各分割信号段的语音信号特征 计算并比较不同语音信号类之间的相似度; 数目获取模块,用于根据不同语音信号类之间的相似度的比较结果确定说话人数 目。 优选地,所述重分割模块包括: 第一模型训练单元,用于利用所述语音信号的语音信号特征训练一个总的高斯混 合模型; 第二模型训练单元,用于利用各语音信号类中各分割信号段的语音信号特征在该 总的高斯混合模型上进行最大后验概率自适应,得到各类的高斯混合模型; 重分割单元,用于利用各类的高斯混合模型对所述语音信号进行重分割,并确定 重分割后语音信号类中各分割信号段; 第一判断单元,用于判断重复重分割的次数是否达到设定的重复次数,如果未达 到,则触发所述第二模型训练单元和所述重分割单元继续重复执行各自的操作过程。 优选地,所述相似度获取模块包括: 说话人因子向量提取单元,用于利用总体变化因子模型提取当前各语音信号类的 说话人因子向量; 第一计算单元,用于根据所述说话人因子向量之间的距离计算不同语音信号类之 间的相似度; 第一合并单元,用于在所述第一计算单元计算得到的最大相似度大于设定的第一 阈值时,将最大相似度对应的两个语音信号类进行合并,然后触发所述第一计算单元继续 重复计算过程。 优选地,所述相似度获取模块包括: 说话人因子向量提取单元,用于利用总体变化因子模型提取当前各语音信号类的 说话人因子向量; 说话人因子分析单元,用于利用概率线性鉴别分析PLDA技术从所述说话人因子 向量中提取信道无关的说话人因子向量; 第二计算单元,用于根据所述信道无关的说话人因子向量之间的距离计算不同语 音信号类之间的相似度; 第二合并单元,用于在所述第二计算单元得到的最大相似度大于设定的第二阈值 时,将最大相似度对应的两个语音信号类进行合并,然后触发所述第二计算单元继续重复 计算过程。 优选地,所述相似度获取模块包括: 说话人因子向量提取单元,用于利用总体变化因子模型提取当前各语音信号类的 说话人因子向量; 第三计算单元,用于利用大量离线数据训练的PLDA模型来计算各语音信号类的 说话人因子向量之间与信道无关的PLDA得分; 第三合并单元,用于在所述第三计算单元得到的最大PLDA得分大于设定的第三 阈值时,将最大PLDA得分对应的两个语音信号类进行合并,然后触发所述第三计算单元继 续重复计算过程。 优选地,所述数目获取模块具体用于将当前语音信号类的数目作为说话人数目。 本专利技术实施例提供的判断说话人数目的方法及系统,通过提取接收的语音信号的 语音信号特征,然后通过现有技术,根据语音信号特征对语音信号进行分割,并将分割后得 到的分割信号段聚类成指定个数的语音信号类,本文档来自技高网...
【技术保护点】
一种判断说话人数目的方法,其特征在于,包括:接收语音信号;提取所述语音信号的语音信号特征;根据所述语音信号的语音信号特征对所述语音信号进行分割,得到分割信号段;将所述分割信号段聚类成指定个数的语音信号类;根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割;计算过程:根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度;计算过程结束后,根据计算结果确定说话人数目。
【技术特征摘要】
【专利技术属性】
技术研发人员:何山,殷兵,潘青华,胡国平,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。