【技术实现步骤摘要】
本专利技术涉及语音信号处理领域,具体涉及一种判断说话人数目的方法及系统。
技术介绍
随着语音信号处理技术的不断发展,语音信号处理的对象由原来仅包括单说话人 场景,逐步开始包括双说话人场景,例如电话记录;甚至多说话人场景,例如会议记录;此 外,目前的语音信号处理的数据由原来的时长为几秒,几十秒的短时音频逐步扩展到几十 分钟,甚至几小时的长时音频。对于双说话人场景或多说话人场景,尤其是长时音频,语音 记录的识别效果跟说话人分离的效果密切相关,而准确的判断说话人数目,能够帮助分析 语音记录的场景,优化说话人分离的效果,从而制定相应的策略提升识别的效果,例如,针 对某个说话人的自适应识别策略。 现有的说话人数目判断多是基于说话人变化点检测,对语音信号进行分割,以达 到对说话人进行分割,再对分割后的各段语音信号基于贝叶斯信息准则进行聚类,最终确 定说话人数目。现有技术中判断说话人数目结果的准确性完全依赖于说话人分割和聚类的 准确性,而说话人分割受到步长的影响,步长多是根据经验确定,所以难免出现设定的步长 不合适的情况,从而影响说话人分割的准确性及后续聚类的准确 ...
【技术保护点】
一种判断说话人数目的方法,其特征在于,包括:接收语音信号;提取所述语音信号的语音信号特征;根据所述语音信号的语音信号特征对所述语音信号进行分割,得到分割信号段;将所述分割信号段聚类成指定个数的语音信号类;根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割;计算过程:根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度;计算过程结束后,根据计算结果确定说话人数目。
【技术特征摘要】
【专利技术属性】
技术研发人员:何山,殷兵,潘青华,胡国平,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。