【技术实现步骤摘要】
自动声纹建模入库方法、装置以及设备
本专利技术涉及语音处理
,尤其涉及一种自动声纹建模入库方法、装置以及设备。
技术介绍
通过已知的目标语料数据进行声纹建模是说话人识别技术中非常重要的一个环节。通常来说,需要根据目标说话人的语料以及声纹识别算法进行该目标说话人的声纹建模,并将该目标说话人的声纹信息存入声纹库中,该过程即是声纹建模入库。其中,用于声纹建模的语料其数量与质量对于后续识别性能影响较大,提供足够数量与合格质量的建模语料显得尤为重要。因此,在声纹建模入库过程中需要预先准备说话人的干净语料。然而,相对于语种识别、连续语音识别等识别方向,在语料中标注说话人(即归类语料)则更为困难。目前,即便在了解说话人及背景相关知识等语料信息的情况下,进行较少量语料标注时仍会存在一定的错误率,更何况当面对不熟悉说话人、未知背景、无场景限定的大语料海量数据集(本专利技术将此简称为无主题大语料库)时,要归类出不同的说话人并实现相应的声纹建模入库操作,其难度可想而知,这也是推广、应用说话人识别技术的关键障碍之一。专 ...
【技术保护点】
1.一种自动声纹建模入库方法,其特征在于,包括:/n基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;/n将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;/n对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;/n利用所述目标语料进行声纹建模并补入声纹库。/n
【技术特征摘要】
1.一种自动声纹建模入库方法,其特征在于,包括:
基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;
将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;
对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;
利用所述目标语料进行声纹建模并补入声纹库。
2.根据权利要求1所述的自动声纹建模入库方法,其特征在于,所述基于多维信息对无主题大语料库的数据进行初始精简包括:
按预设的有效时长从无主题大语料库中排除无效语料;
将无主题大语料库中剩余的语料按语种和/或性别进行初始分类。
3.根据权利要求1所述的自动声纹建模入库方法,其特征在于,所述对所述非现有的待处理语料进行多阶段叠加的共识聚类处理包括:
基于谱聚类策略,对所述非现有的待处理语料进行第一阶段聚类;
基于预设的提纯策略,对第一阶段聚类结果进行第二阶段聚类。
4.根据权利要求3所述的自动声纹建模入库方法,其特征在于,所述第一阶段聚类包括:
表征所述非现有的待处理语料的声纹信息向量;
根据两两声纹信息向量之间的余弦距离,构建对称的相似度矩阵;
利用语料数据的分布特性,对所述相似度矩阵进行裁剪,得到稀疏的邻接矩阵;
基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。
5.根据权利要求3所述的自动声纹建模入库方法,其特征在于,所述提纯策略包括自底向上的凝聚型层次聚类。
6.根据权利要求1~5任一项所述的自动声纹建模入库方法,其特征在于,所述方法还包括:
经声纹比对后,利用与现有声纹相似的所述待处理语料,优化现有的声纹建模。
7.一种自动声纹建模入库装置,其特征在于,包括:
语料精简模块,用于基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;
比对筛选模块,用于将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;
共识聚类模块,用于对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;
建模入库模块,用于利用所述目标语料进行声纹...
【专利技术属性】
技术研发人员:方磊,宣璇,夏翔,方昕,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。