处理音频数据的方法、设备和存储介质技术

技术编号:40957138 阅读:15 留言:0更新日期:2024-04-18 20:34
本公开的至少一实施例提供了一种处理音频数据的方法、设备和计算机可读存储介质。本公开的至少一实施例所提供的方法从由语音交互设备获取的音频数据提取包括文本特征、拼音特征、低阶语义特征和高阶分类特征在内的多种特征,并基于这些特征的融合来对该音频数据进行拒识分类,使得能够结合音频数据的不同类型、不同层次的特征,实现更准确的拒识分类,其中,通过利用大语言模型来基于音频数据生成低阶语义特征和高阶分类特征,能够在所生成的低阶语义特征和高阶分类特征中融合该大语言模型自身在先前训练中所学习到的知识,从而在减少模型训练的工作量的情况下优化拒识分类的性能。

【技术实现步骤摘要】

本公开涉及人工智能领域,更具体地,涉及一种处理音频数据的方法、设备和存储介质


技术介绍

1、语音交互技术在现代社会中扮演着越来越重要的角色。随着诸如智能手机、智能音箱和语音助手等的语音交互设备的普及,人们越来越多地使用语音交互来完成各种任务,诸如发送短信、查询信息和控制智能家居设备等。


技术实现思路

1、本公开的至少一实施例提供了一种处理音频数据的方法、设备和计算机可读存储介质。

2、本公开的至少一实施例提供了一种处理音频数据的方法,包括:从获取的音频数据中提取文本特征和拼音特征;利用大语言模型从所述音频数据中提取所述音频数据的低阶语义特征,所述低阶语义特征描述所述音频数据的语义信息和/或语法信息,所述低阶语义特征包括实体特征,所述实体特征指示所述音频数据中所包含的实体词;利用大语言模型确定对所述音频数据的高阶分类特征,所述高阶分类特征指示所述大语言模型对所述音频数据的拒识分类输出;以及基于所述文本特征、所述拼音特征、所述低阶语义特征和所述高阶分类特征的融合,确定对所述音频数据的拒识结果,其中,本文档来自技高网...

【技术保护点】

1.一种处理音频数据的方法,包括:

2.如权利要求1所述的方法,其中,从获取的音频数据中提取文本特征和拼音特征包括:

3.如权利要求2所述的方法,其中,基于所述语音文本和所述文本拼音,提取所述音频数据的所述文本特征和所述拼音特征包括:

4.如权利要求3所述的方法,其中,所述第一神经网络和所述第二神经网络为预训练语言模型,所述第一神经网络和所述第二神经网络的预训练基于掩码语言模型任务和多音区触发任务进行;

5.如权利要求3所述的方法,其中,利用大语言模型从所述音频数据中提取所述音频数据的低阶语义特征包括:

6.如权利要求5所述的方...

【技术特征摘要】

1.一种处理音频数据的方法,包括:

2.如权利要求1所述的方法,其中,从获取的音频数据中提取文本特征和拼音特征包括:

3.如权利要求2所述的方法,其中,基于所述语音文本和所述文本拼音,提取所述音频数据的所述文本特征和所述拼音特征包括:

4.如权利要求3所述的方法,其中,所述第一神经网络和所述第二神经网络为预训练语言模型,所述第一神经网络和所述第二神经网络的预训练基于掩码语言模型任务和多音区触发任务进行;

5.如权利要求3所述的方法,其中,利用大语言模型从所述音频数据中提取所述音频数据的低阶语义特征包括:

6.如权利要求5所述的方法,其中,基于所述语义信息和/或语法信息,确定所述音频数据的低阶语义特征包括:

7.如权利要求1所述的方法,其中,所述低阶语义特征包括语句通顺度特征、语义完整度特征、和实体特征中的一个或多个;

8.如权利要求7所述的方法,其中,所述语句通顺度特征对应于利用所述大语言模型确定的对所述音频数据的预测的困惑度。

9.如权利要求8所述的方法,其中,所述困惑度是基于所述大语言模型对所述音频数据中的每个字符的预测概率来确定的,其中,对于所述音频数据中的...

【专利技术属性】
技术研发人员:安旭胡鹏龙
申请(专利权)人:武汉星纪魅族科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1