【技术实现步骤摘要】
确定说话人数量的方法、装置及存储介质
本公开涉及语音识别
,具体地,涉及一种确定说话人数量的方法、装置及存储介质。
技术介绍
近年来,基于语音的信息处理技术得到了迅猛的发展并具有广泛的应用。其中比较重要的是基于语音对说话人进行识别的技术,被称为说话人识别,也被称为声纹识别。说话人识别可应用于对说话人的身份进行确认的场合,如法院审理、远程金融服务、安保,在语音检索、反恐、军事等领域亦有应用。相关技术中,可以通过聚类算法对语音中的说话人进行识别,例如k-均值聚类算法。但是,使用k-均值聚类算法时,需要预先设定聚类的数量,针对语音识别,即需要预先设置该语音中说话人的数量。基于此,在预先设置的说话人的数量不准确的情况下,也会导致针对该语音的识别及分类的准确率较低。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种确定说话人数量的方法、装置及存储介质。根据本公开实施例的第一方面,提供一种确定说话人数量的方法,所述方法包括:获取目标音频的多个语音片段;对多个所述语音片段进行相似声纹特征提 ...
【技术保护点】
1.一种确定说话人数量的方法,其特征在于,所述方法包括:/n获取目标音频的多个语音片段;/n对多个所述语音片段进行相似声纹特征提取处理,得到特征相似的相似声纹特征,并根据所述相似声纹特征进行特征图确定处理,得到目标声纹特征连通图,所述特征连通图用于表征所述相似声纹特征的连接关系;/n根据所述目标声纹特征连通图,确定所述目标音频中说话人的数量。/n
【技术特征摘要】
1.一种确定说话人数量的方法,其特征在于,所述方法包括:
获取目标音频的多个语音片段;
对多个所述语音片段进行相似声纹特征提取处理,得到特征相似的相似声纹特征,并根据所述相似声纹特征进行特征图确定处理,得到目标声纹特征连通图,所述特征连通图用于表征所述相似声纹特征的连接关系;
根据所述目标声纹特征连通图,确定所述目标音频中说话人的数量。
2.根据权利要求1所述的方法,其特征在于,所述相似声纹特征提取处理包括:
获取所述目标音频中每个所述语音片段对应的声纹特征;
计算所述声纹特征中每两个声纹特征的相似度;
将所述相似度大于预设相似度阈值的声纹特征,作为所述相似声纹特征。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标音频中每个所述语音片段对应的声纹特征包括:
将每个所述语音片段输入预先训练的声纹特征模型,得到每个所述语音片段对应的声纹特征。
4.根据权利要求3所述的方法,其特征在于,所述声纹特征模型通过以下方式预先训练:
获取语音样本片段和预先设置的梅尔频率倒谱系数;
将所述梅尔频率倒谱系数和所述语音样本片段作为模型训练的样本进行训练,以得到所述声纹特征模型。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述特征图确定处理包括:
根据所述相似声纹特征,生成待定声纹特征连通图;
将所述待定声纹特征连通图和所述声纹特征作为图卷积神经网络的输入,以修正所述待定声纹特征连通图,得到所述目标声纹特征连通图。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似声纹特征,生成待定声纹特征连通图包括:
建立所述相似声纹特征的连接关系,以生成所述待定声纹特征连通图。
7.根据权利要求1所述的方法,其特征在于,所述对多个所述语音片段进行相似声纹特征提取处理,得到特征相似的相似声纹特征,并根据所述相似声纹特征进行特征图确定处理,得到目标声纹特征连通图,所述特征连通图用于表征所述相似声纹特征的连接关系包括:
将多个所述语音片段输入语音处理模型,以对多个所述语音片段进行所述相似声纹特征提取处理和所述特征图确定处理,得到所述目标声纹特征连通图。
8.一种确定说话人数量的装置,其特征在于,所述装置包括:
获取模块,被配置为获取目标音频的多个语音片段;
处理模块,被配置为对多个所述语音片段进...
【专利技术属性】
技术研发人员:杨朔,王欣,蔡国都,
申请(专利权)人:北京小米松果电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。