本发明专利技术公开了一种自动声纹建模入库方法、装置以及设备。本发明专利技术的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的语料。本发明专利技术无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。
【技术实现步骤摘要】
自动声纹建模入库方法、装置以及设备
本专利技术涉及语音处理
,尤其涉及一种自动声纹建模入库方法、装置以及设备。
技术介绍
通过已知的目标语料数据进行声纹建模是说话人识别技术中非常重要的一个环节。通常来说,需要根据目标说话人的语料以及声纹识别算法进行该目标说话人的声纹建模,并将该目标说话人的声纹信息存入声纹库中,该过程即是声纹建模入库。其中,用于声纹建模的语料其数量与质量对于后续识别性能影响较大,提供足够数量与合格质量的建模语料显得尤为重要。因此,在声纹建模入库过程中需要预先准备说话人的干净语料。然而,相对于语种识别、连续语音识别等识别方向,在语料中标注说话人(即归类语料)则更为困难。目前,即便在了解说话人及背景相关知识等语料信息的情况下,进行较少量语料标注时仍会存在一定的错误率,更何况当面对不熟悉说话人、未知背景、无场景限定的大语料海量数据集(本专利技术将此简称为无主题大语料库)时,要归类出不同的说话人并实现相应的声纹建模入库操作,其难度可想而知,这也是推广、应用说话人识别技术的关键障碍之一。
技术实现思路
鉴于上述,本专利技术旨在提供一种自动声纹建模入库方法、装置以及设备,并相应地提出一种计算机可读存储介质以及计算机程序产品,通过这些方面能够针对无主题大语料库,有效且可靠地获取高纯度语料并实现相应的声纹建模入库操作。本专利技术采用的技术方案如下:第一方面,本专利技术提供了一种自动声纹建模入库方法,包括:基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;利用所述目标语料进行声纹建模并补入声纹库。在其中一种可能的实现方式中,所述基于多维信息对无主题大语料库的数据进行初始精简包括:按预设的有效时长从无主题大语料库中排除无效语料;将无主题大语料库中剩余的语料按语种和/或性别进行初始分类。在其中一种可能的实现方式中,所述对所述非现有的待处理语料进行多阶段叠加的共识聚类处理包括:基于谱聚类策略,对所述非现有的待处理语料进行第一阶段聚类;基于预设的提纯策略,对第一阶段聚类结果进行第二阶段聚类。在其中一种可能的实现方式中,所述第一阶段聚类包括:表征所述非现有的待处理语料的声纹信息向量;根据两两声纹信息向量之间的余弦距离,构建对称的相似度矩阵;利用语料数据的分布特性,对所述相似度矩阵进行裁剪,得到稀疏的邻接矩阵;基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。在其中一种可能的实现方式中,所述提纯策略包括自底向上的凝聚型层次聚类。在其中一种可能的实现方式中,所述方法还包括:经声纹比对后,利用与现有声纹相似的所述待处理语料,优化现有的声纹建模。第二方面,本专利技术提供了一种自动声纹建模入库装置,包括:语料精简模块,用于基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;比对筛选模块,用于将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;共识聚类模块,用于对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;建模入库模块,用于利用所述目标语料进行声纹建模并补入声纹库。在其中一种可能的实现方式中,所述语料精简模块包括:无效语料排除单元,用于按预设的有效时长从无主题大语料库中排除无效语料;有效语料初分单元,用于将无主题大语料库中剩余的语料按语种和/或性别进行初始分类。在其中一种可能的实现方式中,所述共识聚类模块包括:第一阶段聚类单元,用于基于谱聚类策略,对所述非现有的待处理语料进行第一阶段聚类;第二阶段聚类单元,用于基于预设的提纯策略,对第一阶段聚类结果进行第二阶段聚类。在其中一种可能的实现方式中,所述第一阶段聚类单元包括:声纹表达组件,用于表征所述非现有的待处理语料的声纹信息向量;相似度矩阵构建组件,用于根据两两声纹信息向量之间的余弦距离,构建对称的相似度矩阵;邻接矩阵构建组件,用于利用语料数据的分布特性,对所述相似度矩阵进行裁剪,得到稀疏的邻接矩阵;聚类操作组件,用于基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。在其中一种可能的实现方式中,所述第二阶段聚类单元包括提纯组件;所述提纯组件具体用于利用自底向上的凝聚型层次聚类策略,对第一阶段聚类结果进行第二阶段聚类。在其中一种可能的实现方式中,所述装置还包括:现有声纹模型更新模块,用于利用所述比对筛选模块处理后得到的与现有声纹相似的所述待处理语料,优化现有的声纹建模。第三方面,本专利技术提供了一种自动声纹建模入库设备,包括:一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。第四方面,本专利技术提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或者第一方面的任一可能实现方式中的所述方法。第五方面,本专利技术还提供了一种计算机程序产品,当所述计算机程序产品被计算机执行时,用于执行第一方面或者第一方面的任一可能实现方式中的所述方法。在第五方面的一种可能的设计中,该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上,也可以部分或者全部存储在不与处理器封装在一起的存储介质上。本专利技术的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的类簇化、层次化、主题化的语料。本专利技术无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率迭代下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。附图说明为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步描述,其中:图1为本专利技术提供的自动声纹建模入库方法的实施例的流程图;图2为本专利技术提供的谱聚类算法局部环节的实施例的流程图图3为本专利技术提供的自动声纹建模入库装置的实施例的方框图;图4为本专利技术提供的自动声纹建模入库设备的实施例的示意图。具体实施方式下面详细描述本专利技术的实施例,实施例的示例在附图本文档来自技高网...
【技术保护点】
1.一种自动声纹建模入库方法,其特征在于,包括:/n基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;/n将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;/n对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;/n利用所述目标语料进行声纹建模并补入声纹库。/n
【技术特征摘要】
1.一种自动声纹建模入库方法,其特征在于,包括:
基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;
将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;
对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;
利用所述目标语料进行声纹建模并补入声纹库。
2.根据权利要求1所述的自动声纹建模入库方法,其特征在于,所述基于多维信息对无主题大语料库的数据进行初始精简包括:
按预设的有效时长从无主题大语料库中排除无效语料;
将无主题大语料库中剩余的语料按语种和/或性别进行初始分类。
3.根据权利要求1所述的自动声纹建模入库方法,其特征在于,所述对所述非现有的待处理语料进行多阶段叠加的共识聚类处理包括:
基于谱聚类策略,对所述非现有的待处理语料进行第一阶段聚类;
基于预设的提纯策略,对第一阶段聚类结果进行第二阶段聚类。
4.根据权利要求3所述的自动声纹建模入库方法,其特征在于,所述第一阶段聚类包括:
表征所述非现有的待处理语料的声纹信息向量;
根据两两声纹信息向量之间的余弦距离,构建对称的相似度矩阵;
利用语料数据的分布特性,对所述相似度矩阵进行裁剪,得到稀疏的邻接矩阵;
基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。
5.根据权利要求3所述的自动声纹建模入库方法,其特征在于,所述提纯策略包括自底向上的凝聚型层次聚类。
6.根据权利要求1~5任一项所述的自动声纹建模入库方法,其特征在于,所述方法还包括:
经声纹比对后,利用与现有声纹相似的所述待处理语料,优化现有的声纹建模。
7.一种自动声纹建模入库装置,其特征在于,包括:
语料精简模块,用于基于多维信息对无主题大语料库的数据进行初始精简,得到待处理语料;
比对筛选模块,用于将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对,确定非现有的待处理语料;
共识聚类模块,用于对所述非现有的待处理语料进行多阶段叠加的共识聚类处理,得到若干目标语料;
建模入库模块,用于利用所述目标语料进行声纹...
【专利技术属性】
技术研发人员:方磊,宣璇,夏翔,方昕,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。