语音分类方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号：40034374 阅读：18 留言：0更新日期：2024-01-16 18:44

本申请公开了一种语音分类方法、装置、电子设备及计算机可读介质，涉及计算机技术领域，方法包括：获取待处理的语音数据对应的语音特征向量，获取识别模型基于目标数据得到的提示信息，其中，所述目标数据的类型包括文本类型和预设类型，所述提示信息包括语音分类任务信息，基于所述语音特征向量和所述提示信息，对所述语音数据执行分类操作。由于可以通过目标数据的识别来确定提示信息，并且该目标数据包含有文本类型之外的其他类型，从而能够提供多种模态的数据输入提示信息的方式。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，更具体地，涉及一种语音分类方法、装置、电子设备及计算机可读介质。

技术介绍

1、目前使用prompt提示词在llm或者语音大模型上展现了巨大的潜力，比如可以实现对语音、图像的感知理解和推理，也可以实现多个语音分类任务。但是到目前为止，prompt提示词的输入方式比较单一。

技术实现思路

1、本申请提出了一种语音分类方法、装置、电子设备及计算机可读介质，以改善上述缺陷。

2、第一方面，本申请实施例提供了一种语音分类方法，包括：获取待处理的语音数据对应的语音特征向量；获取识别模型基于目标数据得到的提示信息，其中，所述目标数据的类型包括文本类型和预设类型，所述提示信息包括语音分类任务信息；基于所述语音特征向量和所述提示信息，对所述语音数据执行分类操作。

3、第二方面，本申请实施例还提供了一种语音分类装置，包括：获取单元、确定单元和处理单元。获取单元，用于获取待处理的语音数据对应的语音特征向量。确定单元，用于获取识别模型基于目标数据得到的提示信息，其中，所...

【技术保护点】

1.一种语音分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设类型包括视频、语音、图像和热力图的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述基于所述语音特征向量和所述提示信息，对所述语音数据执行分类操作，包括：

4.根据权利要求3所述的方法，其特征在于，在获取所述语音语言模型基于所述语音特征向量和所述提示信息输出的多个语音单元之后，还包括：

5.根据权利要求3所述的方法，其特征在于，所述语音语言模型为speech LM模型，语音分析模型为Verbalizer模型。

6.根据权利要求1所...

【技术特征摘要】

1.一种语音分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设类型包括视频、语音、图像和热力图的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述基于所述语音特征向量和所述提示信息，对所述语音数据执行分类操作，包括：

4.根据权利要求3所述的方法，其特征在于，在获取所述语音语言模型基于所述语音特征向量和所述提示信息输出的多个语音单元之后，还包括：

5.根据权利要求3所述的方法，其特征在于，所述语音语言模型为speech lm模型，语音分析模型为verbalizer模型。

6.根据...

【专利技术属性】
技术研发人员：陈昌儒，李标，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人