一种判断说话人数目的方法及系统技术方案

技术编号：12531036 阅读：128 留言：0更新日期：2015-12-18 02:33

本发明专利技术公开了一种判断说话人数目的方法及系统，包括：接收语音信号；提取所述语音信号的语音信号特征；根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段；将所述分割信号段聚类成指定个数的语音信号类；根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；计算过程：根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度；计算过程结束后，根据计算结果确定说话人数目。本发明专利技术由于对语音信号进行重分割，可以消除现有技术中对语音信号进行分割时的步长限制的影响，并通过计算比较不同语音信号类之间的相似度，提高后续说话人数目判断的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理领域，具体涉及一种判断说话人数目的方法及系统。
技术介绍
随着语音信号处理技术的不断发展，语音信号处理的对象由原来仅包括单说话人场景，逐步开始包括双说话人场景，例如电话记录；甚至多说话人场景，例如会议记录；此外，目前的语音信号处理的数据由原来的时长为几秒，几十秒的短时音频逐步扩展到几十分钟，甚至几小时的长时音频。对于双说话人场景或多说话人场景，尤其是长时音频，语音记录的识别效果跟说话人分离的效果密切相关，而准确的判断说话人数目，能够帮助分析语音记录的场景，优化说话人分离的效果，从而制定相应的策略提升识别的效果，例如，针对某个说话人的自适应识别策略。现有的说话人数目判断多是基于说话人变化点检测，对语音信号进行分割，以达到对说话人进行分割，再对分割后的各段语音信号基于贝叶斯信息准则进行聚类，最终确定说话人数目。现有技术中判断说话人数目结果的准确性完全依赖于说话人分割和聚类的准确性，而说话人分割受到步长的影响，步长多是根据经验确定，所以难免出现设定的步长不合适的情况，从而影响说话人分割的准确性及后续聚类的准确性；此外，在聚类时贝叶斯距离受语音时长的影响，主要表现为一般情况下语音时长越长其贝叶斯距离越大，因而在对不同时长的语音进行说话人聚类时，难以用统一的阈值进行聚类停止条件的判断，使得说话人数目判断存在较大误差，最终影响语音识别效果。
技术实现思路
本专利技术实施例提供一种判断说话人数目的方法及系统，解决对于双说话人场景或多说话人场景，尤其是长时音频，通过现有技术判断的说话人数目不准确的问题...

【技术保护点】
一种判断说话人数目的方法，其特征在于，包括：接收语音信号；提取所述语音信号的语音信号特征；根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段；将所述分割信号段聚类成指定个数的语音信号类；根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；计算过程：根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度；计算过程结束后，根据计算结果确定说话人数目。

【技术特征摘要】

【专利技术属性】
技术研发人员：何山，殷兵，潘青华，胡国平，胡郁，刘庆峰，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人