自动声纹建模入库方法、装置以及设备制造方法及图纸

技术编号:24888920 阅读:43 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种自动声纹建模入库方法、装置以及设备。本发明专利技术的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的语料。本发明专利技术无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

【技术实现步骤摘要】
自动声纹建模入库方法、装置以及设备
本专利技术涉及语音处理
,尤其涉及一种自动声纹建模入库方法、装置以及设备。
技术介绍
通过已知的目标语料数据进行声纹建模是说话人识别技术中非常重要的一个环节。通常来说,需要根据目标说话人的语料以及声纹识别算法进行该目标说话人的声纹建模,并将该目标说话人的声纹信息存入声纹库中,该过程即是声纹建模入库。其中,用于声纹建模的语料其数量与质量对于后续识别性能影响较大,提供足够数量与合格质量的建模语料显得尤为重要。因此,在声纹建模入库过程中需要预先准备说话人的干净语料。然而,相对于语种识别、连续语音识别等识别方向,在语料中标注说话人(即归类语料)则更为困难。目前,即便在了解说话人及背景相关知识等语料信息的情况下,进行较少量语料标注时仍会存在一定的错误率,更何况当面对不熟悉说话人、未知背景、无场景限定的大语料海量数据集(本专利技术将此简称为无主题大语料库)时,要归类出不同的说话人并实现相应的声纹建模入库操作,其难度可想而知,这也是推广、应用说话人识别技术的关键障碍之一。专
技术实现思路
鉴本文档来自技高网
...

【技术保护点】
1.一种自动声纹建模入库方法,其特征在于,包括:/n基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;/n将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;/n对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;/n利用所述目标语料进行声纹建模并补入声纹库。/n

【技术特征摘要】
1.一种自动声纹建模入库方法,其特征在于,包括:
基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;
将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;
对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;
利用所述目标语料进行声纹建模并补入声纹库。


2.根据权利要求1所述的自动声纹建模入库方法,其特征在于,所述基于多维信息对无主题大语料库的数据进行初始精简包括:
按预设的有效时长从无主题大语料库中排除无效语料;
将无主题大语料库中剩余的语料按语种和/或性别进行初始分类。


3.根据权利要求1所述的自动声纹建模入库方法,其特征在于,所述对所述非现有的待处理语料进行多阶段叠加的共识聚类处理包括:
基于谱聚类策略,对所述非现有的待处理语料进行第一阶段聚类;
基于预设的提纯策略,对第一阶段聚类结果进行第二阶段聚类。


4.根据权利要求3所述的自动声纹建模入库方法,其特征在于,所述第一阶段聚类包括:
表征所述非现有的待处理语料的声纹信息向量;
根据两两声纹信息向量之间的余弦距离,构建对称的相似度矩阵;
利用语料数据的分布特性,对所述相似度矩阵进行裁剪,得到稀疏的邻接矩阵;
基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。


5.根据权利要求3所述的自动声纹建模入库方法,其特征在于,所述提纯策略包括自底向上的凝聚型层次聚类。


6.根据权利要求1~5任一项所述的自动声纹建模入库方法,其特征在于,所述方法还包括:
经声纹比对后,利用与现有声纹相似的所述待处理语料,优化现有的声纹建模。


7.一种自动声纹建模入库装置,其特征在于,包括:
语料精简模块,用于基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;
比对筛选模块,用于将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;
共识聚类模块,用于对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;
建模入库模块,用于利用所述目标语料进行声纹...

【专利技术属性】
技术研发人员:方磊宣璇夏翔方昕
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1