语音转录文本聚类方法、装置、电子设备和存储介质制造方法及图纸

技术编号：35343191 阅读：20 留言：0更新日期：2022-10-26 12:07

本发明专利技术提供一种语音转录文本聚类方法、装置、电子设备和存储介质，所述方法包括：提取各语音转录文本的向量表示；将各语音转录文本的向量表示输入至文本聚类模型，得到文本聚类模型输出的各语音转录文本的聚类结果；本发明专利技术以最小化相同样本语音转录文本的向量表示之间的距离，最大化不同样本语音转录文本的向量表示之间的距离，最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标迭代更新训练得到文本聚类模型，最终使得文本聚类模型能够从文本层面和类别层面对各语音转录文本进行聚类，进而准确得到聚类结果。进而准确得到聚类结果。进而准确得到聚类结果。

全部详细技术资料下载

【技术实现步骤摘要】
语音转录文本聚类方法、装置、电子设备和存储介质

[0001]本专利技术涉及语音转录
，尤其涉及一种语音转录文本聚类方法、装置、电子设备和存储介质。

技术介绍

[0002]随着自动语音识别技术(Automatic Speech Recognition，ASR)的迅速发展，出现了大量的中文ASR语音转录文本。
[0003]由于录音背景有噪声、识别技术精度有限等原因，这些语音转录文本普遍具有字错误率高、语句不流畅等特点，导致现有的文本聚类方法，如k
‑
means等，直接应用于ASR语音转录文本时效果较差。

技术实现思路

[0004]本专利技术提供一种语音转录文本聚类方法、装置、电子设备和存储介质，用以解决现有技术中文本聚类精度较低的缺陷。
[0005]本专利技术提供一种语音转录文本聚类方法，包括：
[0006]提取各语音转录文本的向量表示；
[0007]将各语音转录文本的向量表示输入至文本聚类模型，得到所述文本聚类模型输出的各语音转录文本的聚类结果；
[0008]所述文本聚类模型基于多个样本语音转录文本的向量表示以及各样本语音转录文本的聚类结果训练得到，所述文本聚类模型的训练以最小化相同样本语音转录文本的向量表示之间的距离，最大化不同样本语音转录文本的向量表示之间的距离，最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标。
[0009]根据本专利技术提...

【技术保护点】

【技术特征摘要】
1.一种语音转录文本聚类方法，其特征在于，包括：提取各语音转录文本的向量表示；将各语音转录文本的向量表示输入至文本聚类模型，得到所述文本聚类模型输出的各语音转录文本的聚类结果；所述文本聚类模型基于多个样本语音转录文本的向量表示以及各样本语音转录文本的聚类结果训练得到，所述文本聚类模型的训练以最小化相同样本语音转录文本的向量表示之间的距离，最大化不同样本语音转录文本的向量表示之间的距离，最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标。2.根据权利要求1所述的语音转录文本聚类方法，其特征在于，所述文本聚类模型基于如下步骤训练得到：聚类步骤：基于所述文本聚类模型的当前迭代模型，提取各样本语音转录文本的样本向量表示，并基于各样本向量表示进行文本聚类，得到各样本语音转录文本的当前聚类结果；向量确定步骤：基于所述当前聚类结果中相同类别各样本语音转录文本的样本向量表示，确定各类别的语义向量；训练步骤：基于相同样本语音转录文本的向量表示之间的距离，不同样本语音转录文本的向量表示之间的距离，样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及样本语音转录文本的向量表示与其它类别的语义向量之间的距离，确定所述当前迭代模型的损失值，并基于所述损失值对所述当前迭代模型进行参数更新；迭代步骤：以参数更新后的当前迭代模型作为所述聚类步骤中的当前迭代模型，依次重复执行所述聚类步骤，所述向量确定步骤以及所述训练步骤，直至达到收敛条件，得到所述文本聚类模型。3.根据权利要求2所述的语音转录文本聚类方法，其特征在于，所述基于相同样本语音转录文本的向量表示之间的距离，不同样本语音转录文本的向量表示之间的距离，样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及样本语音转录文本的向量表示与其它类别的语义向量之间的距离，确定所述当前迭代模型的损失值，包括：基于相同样本语音转录文本的向量表示之间的余弦相似度，以及不同样本语音转录文本的向量表示之间的余弦相似度，确定文本层面的对比损失值；基于样本语音转录文本的向量表示与其所属类别的语义向量之间的余弦相似度以及样本语音转录文本的向量表示与其它类别的语义向量之间的余弦相似度，确定类别层面的对比损失值；基于所述文本层面的对比损失值，以及所述类别层面的对比损失值，确定所述当前迭代模型的损失值。4.根据权利要求3所述的语音转录文本聚类方法，其特征在于，所述文本层面的对比损失值基于如下公式确定：
其中，表示所述文本层面的对比损失值，表示所述相同样本语音转录文本的向量表示之间的余弦相似度，表示所述不同样本语音转录文本的向量表示之间的余弦相似度，τ表示余弦值的缩放程度，N表示一个训练批次的样本数量；所述类别层面的对比损失值基于如下公式确定：所述类别层面的对比损失值基于如下公式确定：所述类别层面的对比损失值基于如下公式确定：所述类别层面的对比损失值基于如下公式确定：所述类别层面的对比损失值基于如下公式确定：其中，表示所述类别层面的...

【专利技术属性】
技术研发人员：曾杰林，李林静，梁嘉琦，曾大军，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人