【技术实现步骤摘要】
一种说话人标签对齐方法、装置、电子设备及计算机可读存储介质
[0001]本专利技术涉及语音识别
,具体而言,涉及一种说话人标签对齐方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]随着深度学习技术的不断发展,语音识别技术的准确率也在不断提升,应用也越来越广泛。对于单人近场的语音识别场景,语音识别已经能够达到较高的准确率。而多人远场的语音识别场景,则仍然是一个难点。其中一个重要的难题即在于说话人日志技术,即首先需要识别出每个说话人的说话时间,然后才能使用语音识别技术进行语音识别。
[0003]对于多人远场的语音场景,我们常使用多麦克风设备获取多个声道的语音文件。在语音识别之前,首先使用说话人日志技术,将语音文件分割为多个单一说话人片段,多个声道,则能获得多个分割结果。说话人日志技术中,常使用聚类算法获取分割结果,但是聚类算法仅能得到相对的标签,不能获取标签的绝对值。如何将多个说话人日志的标签进行融合,从而提升说话人日志算法的精度,则是一个难题。
技术实现思路
[0004]本专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种说话人标签对齐方法,其特征在于,所述方法包括:获取N个声道的N个说话人日志,其中,每个声道对应一个说话人日志,N为正整数;分别对每个所述说话人日志进行聚类,得到聚类后的N个说话人标签集;将第一目标说话人标签集作为参考标签集,其中,所述第一目标说话人标签集为N个所述说话人标签集中的任意之一;基于所述参考标签集,将除所述第一目标说话人标签集以外的N
‑
1个第二目标说话人标签集进行对齐处理。2.根据权利要求1所述的方法,其特征在于,所述基于所述参考标签集,将除所述第一目标说话人标签集以外的N
‑
1个第二目标说话人标签集进行对齐处理的步骤,包括:分别将所述参考标签集以及N
‑
1个所述第二目标说话人标签集,进行编码,得到第一矩阵和N
‑
1个第二矩阵,其中,第一矩阵为对所述参考标签集编码后得到的矩阵,所述第二矩阵为对所述第二目标说话人标签集编码后得到的矩阵;针对每个所述第二矩阵,计算所述第二矩阵与所述第一矩阵之间的距离矩阵;基于所述距离矩阵,采用动态规划算法,计算所述第一矩阵和第二矩阵的最短距离;确定所述最短距离对应的所述参考标签集与所述第二目标说话人标签集的对应关系;基于所述对应关系,将所述第二目标说话人标签集中的各标签与所述参考标签集中的各标签对齐,其中,所述第二目标说话人标签集中的各标签与所述参考标签集中的各标签一一对应。3.根据权利要求2所述的方法,其特征在于,所述动态规划算法包括:最短距离=D(1,1),if Row(D)=1;其中,D为距离矩阵,i为所述距离矩阵的列数,M
1,i
为所述距离矩阵去掉第1行第i列后的矩阵子式,F为矩阵子式的元素值,Row(D)为所述距离矩阵的行数,M2为所述距离矩阵的维度。4.根据权利要求2所述的方法,其特征在于,所述分别将所述参考标签集以及N
‑
1个所述第二目标说话人标签集,进行编码,得到第一矩阵和N
‑
1个第二矩阵的步骤,包括:分别将所述参考标签以及N
‑
1个所述第二目标说话人标签集,采用one
‑
hot编码,得到第一矩阵和N
‑
1个第二矩阵。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述参考标签集,将除所述第一目标说话人标签集以外的N
‑
1个第二目标说话人标签集进行对齐处理后,得到N
‑
1个第三目标说话人标签集;在第四目标说话人标签集中存在有,与N
‑
m个第三目标说话人标签集不同的标签时,基于N
‑
m个所述第三目标说话人标签集,对所述第四目标说话人标签集中的异常标签进行融合处理,使得所述第四目标说话人标签集中的各标签与N
‑
m个所述第三目标说话人标签集一致,其中,m为大于或者等于2的正整数,所述第四目标说话人...
【专利技术属性】
技术研发人员:吕翔,印晶晶,卢恒,
申请(专利权)人:上海喜马拉雅科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。