说话人分割模型的训练方法、说话人分割方法及相关设备技术

技术编号：40420136 阅读：28 留言：0更新日期：2024-02-20 22:38

本申请公开了一种说话人分割模型的训练方法、说话人分割方法及相关设备。所述训练方法包括：通过待训练的说话人分割模型的多级特征表示网络，对样本音频包含的每个音频片段的语音特征进行特征表示，得到每个音频片段的多级特征向量；基于预设聚类算法和每个音频片段的第一级特征向量，确定每个音频片段所属的第一说话人；基于说话人分割模型的语音识别网络和每个音频片段的至少一级特征向量，确定每个音频片段所属的第二说话人；基于样本音频包含的每个音频片段所属的第一说话人及第二说话人以及每个音频片段对应的说话人标签，确定说话人分割模型的分割损失；基于分割损失调整说话人分割模型的模型参数，以得到目标说话人分割模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，尤其涉及一种说话人分割模型的训练方法、说话人分割方法及相关设备。

技术介绍

1、说话人分割又名说话人日志，它用于在一通语音中判断某个时间段是谁说话的问题。目前常用的说话人分割方案，主要利用端到端的模型训练方式训练一个具有说话人分割功能的模型，然后利用该模型对待分割音频进行说话人分割。但是，上述方案是利用一通音频中每个音频片段独立的相关特征进行模型训练，进而训练出的说话人分割模型在进行说话人分割时，是单独对待分割音频中的每个音频片段进行说话人分割，这就容易出现说话人混乱的问题，比如基于第一个候选音频片段识别出的说话人1是坐席、说话人2是客户，但是第二个候选音频片段被识别出说话人1是客户、说话人2是坐席，从而影响说话人分割结果的准确性。

技术实现思路

1、本申请实施例的目的是提供一种说话人分割模型的训练方法、说话人分割方法及相关设备，用于解决目标的说话人分割方案存在的说话人混乱的问题。

2、为了实现上述目的，本申请实施例采用下述技术方案：

3、第一方...

【技术保护点】

1.一种说话人分割模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本音频包含的每个音频片段所属的第一说话人及第二说话人以及所述每个音频片段对应的说话人标签，确定所述说话人分割模型的分割损失，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于预设聚类算法和所述每个音频片段的多级特征向量中的第一级特征向量，确定所述每个音频片段所属的第一说话人，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述说话人分割模型的语音识别网络和所述每个音频片段的多级特征向量中的至少一级特征向量，确定所述每个音频片段...

【技术特征摘要】

1.一种说话人分割模型的训练方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述说话人分割模型的语音识别网络和所述每个音频片段的多级特征向量中的至少一级特征向量，确定所述每个音频片段所属的第二说话人，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述多级特征表示网络中的每级特征表示网络包括特征映射层和双向编码层；

6.一种说话人分割方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述每个候选音频片段...

【专利技术属性】
技术研发人员：孟庆林，蒋宁，吴海英，刘敏，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人