语音转录文本聚类方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35343191 阅读:20 留言:0更新日期:2022-10-26 12:07
本发明专利技术提供一种语音转录文本聚类方法、装置、电子设备和存储介质,所述方法包括:提取各语音转录文本的向量表示;将各语音转录文本的向量表示输入至文本聚类模型,得到文本聚类模型输出的各语音转录文本的聚类结果;本发明专利技术以最小化相同样本语音转录文本的向量表示之间的距离,最大化不同样本语音转录文本的向量表示之间的距离,最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标迭代更新训练得到文本聚类模型,最终使得文本聚类模型能够从文本层面和类别层面对各语音转录文本进行聚类,进而准确得到聚类结果。进而准确得到聚类结果。进而准确得到聚类结果。

【技术实现步骤摘要】
语音转录文本聚类方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音转录
,尤其涉及一种语音转录文本聚类方法、装置、电子设备和存储介质。

技术介绍

[0002]随着自动语音识别技术(Automatic Speech Recognition,ASR)的迅速发展,出现了大量的中文ASR语音转录文本。
[0003]由于录音背景有噪声、识别技术精度有限等原因,这些语音转录文本普遍具有字错误率高、语句不流畅等特点,导致现有的文本聚类方法,如k

means等,直接应用于ASR语音转录文本时效果较差。

技术实现思路

[0004]本专利技术提供一种语音转录文本聚类方法、装置、电子设备和存储介质,用以解决现有技术中文本聚类精度较低的缺陷。
[0005]本专利技术提供一种语音转录文本聚类方法,包括:
[0006]提取各语音转录文本的向量表示;
[0007]将各语音转录文本的向量表示输入至文本聚类模型,得到所述文本聚类模型输出的各语音转录文本的聚类结果;
[0008]所述文本聚类模型基于多个样本语音转录文本的向量表示以及各样本语音转录文本的聚类结果训练得到,所述文本聚类模型的训练以最小化相同样本语音转录文本的向量表示之间的距离,最大化不同样本语音转录文本的向量表示之间的距离,最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标。
[0009]根据本专利技术提供的一种语音转录文本聚类方法,所述文本聚类模型基于如下步骤训练得到:
[0010]聚类步骤:基于所述文本聚类模型的当前迭代模型,提取各样本语音转录文本的样本向量表示,并基于各样本向量表示进行文本聚类,得到各样本语音转录文本的当前聚类结果;
[0011]向量确定步骤:基于所述当前聚类结果中相同类别各样本语音转录文本的样本向量表示,确定各类别的语义向量;
[0012]训练步骤:基于相同样本语音转录文本的向量表示之间的距离,不同样本语音转录文本的向量表示之间的距离,样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及样本语音转录文本的向量表示与其它类别的语义向量之间的距离,确定所述当前迭代模型的损失值,并基于所述损失值对所述当前迭代模型进行参数更新;
[0013]迭代步骤:以参数更新后的当前迭代模型作为所述聚类步骤中的当前迭代模型,依次重复执行所述聚类步骤,所述向量确定步骤以及所述训练步骤,直至达到收敛条件,得
到所述文本聚类模型。
[0014]根据本专利技术提供的一种语音转录文本聚类方法,所述基于相同样本语音转录文本的向量表示之间的距离,不同样本语音转录文本的向量表示之间的距离,样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及样本语音转录文本的向量表示与其它类别的语义向量之间的距离,确定所述当前迭代模型的损失值,包括:
[0015]基于相同样本语音转录文本的向量表示之间的余弦相似度,以及不同样本语音转录文本的向量表示之间的余弦相似度,确定文本层面的对比损失值;
[0016]基于样本语音转录文本的向量表示与其所属类别的语义向量之间的余弦相似度以及样本语音转录文本的向量表示与其它类别的语义向量之间的余弦相似度,确定类别层面的对比损失值;
[0017]基于所述文本层面的对比损失值,以及所述类别层面的对比损失值,确定所述当前迭代模型的损失值。
[0018]根据本专利技术提供的一种语音转录文本聚类方法,所述文本层面的对比损失值基于如下公式确定:
[0019][0020]其中,表示所述文本层面的对比损失值,表示所述相同样本语音转录文本的向量表示之间的余弦相似度,表示所述不同样本语音转录文本的向量表示之间的余弦相似度,τ表示余弦值的缩放程度,N表示一个训练批次的样本数量;
[0021]所述类别层面的对比损失值基于如下公式确定:
[0022][0023][0024][0025][0026][0027]其中,表示所述类别层面的对比损失值,sim(s
i
,e
c
)表示所述样本语音转录文本的向量表示s
i
与其所属类别的语义向量e
c
之间的余弦相似度,sim(s
i
,e
j
)表示所述样本语
音转录文本的向量表示s
i
与其它类别的语义向量e
j
之间的余弦相似度,n
c
表示语义向量e
c
对应类别中样本语音转录文本的数量,n
j
表示语义向量e
j
对应类别中样本语音转录文本的数量,α为平滑系数。
[0028]根据本专利技术提供的一种语音转录文本聚类方法,所述提取各语音转录文本的向量表示,包括:
[0029]对各语音转录文本进行编码,得到各语音转录文本的字符编码向量集合;
[0030]对所述字符编码向量集合中的各向量进行均值处理,得到各语音转录文本的向量表示。
[0031]根据本专利技术提供的一种语音转录文本聚类方法,各语音转录文本的向量表示基于如下公式确定:
[0032][0033]其中,S
i
表示各语音转录文本的向量表示,n表示各语音转录文本的字符数,e
cls
表示各语音转录文本起始字符的编码向量,e
sep
表示各语音转录文本结束字符的编码向量,e
j
表示各语音转录文本的字符编码向量。
[0034]根据本专利技术提供的一种语音转录文本聚类方法,所述相同样本语音转录文本的向量表示之间的距离基于如下步骤确定:
[0035]对各样本语音转录文本进行数据增强,得到各样本语音转录文本的增强文本,并提取各增强文本的向量表示;
[0036]基于各样本语音转录文本的向量表示及其对应的各增强文本的向量表示,确定所述相同样本语音转录文本的向量表示之间的距离。
[0037]本专利技术还提供一种语音转录文本聚类装置,包括:
[0038]提取单元,用于提取各语音转录文本的向量表示;
[0039]聚类单元,用于将各语音转录文本的向量表示输入至文本聚类模型,得到所述文本聚类模型输出的各语音转录文本的聚类结果;
[0040]所述文本聚类模型基于多个样本语音转录文本的向量表示以及各样本语音转录文本的聚类结果训练得到,所述文本聚类模型的训练以最小化相同样本语音转录文本的向量表示之间的距离,最大化不同样本语音转录文本的向量表示之间的距离,最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标。
[0041]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音转录本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转录文本聚类方法,其特征在于,包括:提取各语音转录文本的向量表示;将各语音转录文本的向量表示输入至文本聚类模型,得到所述文本聚类模型输出的各语音转录文本的聚类结果;所述文本聚类模型基于多个样本语音转录文本的向量表示以及各样本语音转录文本的聚类结果训练得到,所述文本聚类模型的训练以最小化相同样本语音转录文本的向量表示之间的距离,最大化不同样本语音转录文本的向量表示之间的距离,最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标。2.根据权利要求1所述的语音转录文本聚类方法,其特征在于,所述文本聚类模型基于如下步骤训练得到:聚类步骤:基于所述文本聚类模型的当前迭代模型,提取各样本语音转录文本的样本向量表示,并基于各样本向量表示进行文本聚类,得到各样本语音转录文本的当前聚类结果;向量确定步骤:基于所述当前聚类结果中相同类别各样本语音转录文本的样本向量表示,确定各类别的语义向量;训练步骤:基于相同样本语音转录文本的向量表示之间的距离,不同样本语音转录文本的向量表示之间的距离,样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及样本语音转录文本的向量表示与其它类别的语义向量之间的距离,确定所述当前迭代模型的损失值,并基于所述损失值对所述当前迭代模型进行参数更新;迭代步骤:以参数更新后的当前迭代模型作为所述聚类步骤中的当前迭代模型,依次重复执行所述聚类步骤,所述向量确定步骤以及所述训练步骤,直至达到收敛条件,得到所述文本聚类模型。3.根据权利要求2所述的语音转录文本聚类方法,其特征在于,所述基于相同样本语音转录文本的向量表示之间的距离,不同样本语音转录文本的向量表示之间的距离,样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及样本语音转录文本的向量表示与其它类别的语义向量之间的距离,确定所述当前迭代模型的损失值,包括:基于相同样本语音转录文本的向量表示之间的余弦相似度,以及不同样本语音转录文本的向量表示之间的余弦相似度,确定文本层面的对比损失值;基于样本语音转录文本的向量表示与其所属类别的语义向量之间的余弦相似度以及样本语音转录文本的向量表示与其它类别的语义向量之间的余弦相似度,确定类别层面的对比损失值;基于所述文本层面的对比损失值,以及所述类别层面的对比损失值,确定所述当前迭代模型的损失值。4.根据权利要求3所述的语音转录文本聚类方法,其特征在于,所述文本层面的对比损失值基于如下公式确定:
其中,表示所述文本层面的对比损失值,表示所述相同样本语音转录文本的向量表示之间的余弦相似度,表示所述不同样本语音转录文本的向量表示之间的余弦相似度,τ表示余弦值的缩放程度,N表示一个训练批次的样本数量;所述类别层面的对比损失值基于如下公式确定:所述类别层面的对比损失值基于如下公式确定:所述类别层面的对比损失值基于如下公式确定:所述类别层面的对比损失值基于如下公式确定:所述类别层面的对比损失值基于如下公式确定:其中,表示所述类别层面的...

【专利技术属性】
技术研发人员:曾杰林李林静梁嘉琦曾大军
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1