处理音频数据的方法及装置、音频数据处理设备和介质制造方法及图纸

技术编号：39249171 阅读：13 留言：0更新日期：2023-10-30 12:01

本公开的至少一实施例提供了一种处理音频数据的方法和装置、音频数据处理设备和计算机可读存储介质。本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据，分别从中提取语音特征和语音文本，继而基于语音特征和语音文本确定对音频数据的拒识概率，并且基于语音特征对该音频数据所属的场景进行分类，以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。该方法能够利用包括声音和文本的多模态信息进行拒识概率确定，并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景，从而基于两类结果的融合实现更准确的语音交互拒识判断。的融合实现更准确的语音交互拒识判断。的融合实现更准确的语音交互拒识判断。

全部详细技术资料下载

【技术实现步骤摘要】
处理音频数据的方法及装置、音频数据处理设备和介质

[0001]本公开涉及人工智能领域，更具体地，涉及处理音频数据的方法以及装置、音频数据处理设备和存储介质。

技术介绍

[0002]语音交互技术在现代社会中扮演着越来越重要的角色。随着诸如智能手机、智能音箱和语音助手等的语音交互设备的普及，人们越来越多地使用语音交互来完成各种任务，诸如发送短信、查询信息和控制智能家居设备等。

技术实现思路

[0003]本公开的至少一实施例提供了一种处理音频数据的方法，所述方法包括：从由语音交互设备获取的音频数据中提取语音特征；对所述音频数据进行语音识别，以获得与所述音频数据相对应的语音文本；基于所述语音特征和所述语音文本，确定对所述音频数据的拒识概率；基于所述语音特征，确定所述音频数据所属的场景类别；以及基于所确定的拒识概率和场景类别，确定对所述音频数据的拒识结果，所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。
[0004]本公开的至少一实施例提供了一种音频数据处理装置，包括：语音特征提取模块，被配置为从由语音交互设备获取的音频数据中提取语音特征；语音文本生成模块，被配置为对所述音频数据进行语音识别，以获得与所述音频数据相对应的语音文本；拒识概率确定模块，被配置为基于所述语音特征和所述语音文本，确定对所述音频数据的拒识概率；场景类别确定模块，被配置为基于所述语音特征，确定所述音频数据所属的场景类别；以及拒识结果确定模块，被配置为基于所确定的拒识概率和场景类别，确定对所述音频数据的拒识结果，所述拒识结...

【技术保护点】

【技术特征摘要】
1.处理音频数据的方法，所述方法包括：从由语音交互设备获取的音频数据中提取语音特征；对所述音频数据进行语音识别，以获得与所述音频数据相对应的语音文本；基于所述语音特征和所述语音文本，确定对所述音频数据的拒识概率，所述拒识概率指示所述语音交互设备对所述音频数据进行拒识的概率；基于所述语音特征，确定所述音频数据所属的场景类别，所述场景类别包括交互场景和非交互场景；以及基于所确定的拒识概率和场景类别，确定对所述音频数据的拒识结果，其中，所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。2.如权利要求1所述的方法，其中，所述音频数据是由所述语音交互设备在一时间段内获取的；其中，从由语音交互设备获取的音频数据中提取语音特征包括：提取所述音频数据的频谱特征，所述频谱特征包括语气特征、语调特征、语速特征中的至少一种；以及基于所述音频数据以及所述语音交互设备在所述时间段前序的若干连续时间段内采集的历史音频数据，获得所述音频数据的语音特征，所述语音特征包括所述音频数据的频谱特征与所述历史音频数据的频谱特征的融合。3.如权利要求1所述的方法，其中，对所述音频数据进行语音识别，以获得与所述音频数据相对应的语音文本，包括：对所述音频数据进行语音识别，并通过字嵌入处理生成与所述音频数据相对应的语音文本，其中，所述语音文本中的每个字以多维字向量表示。4.如权利要求1所述的方法，其中，基于所述语音特征和所述语音文本，确定对所述音频数据的拒识概率，包括：对所述语音特征和所述语音文本进行拼接，并通过第一卷积神经网络确定对所述音频数据的拒识概率。5. 如权利要求2所述的方法，其中，基于所述语音特征，确定所述音频数据所属的场景类别，包括：基于所述语音特征，通过第二卷积神经网络确定所述音频数据属于多个场景类别中的每个场景类别的概率；以及基于所述概率确定所述音频数据在所述时间段内所属的场景类别；其中，所述多个场景类别包括交互场景和非交互场景，所述非交互场景包括多人聊天场景、打电话场景、影音播放场景中的一个或多个。6.如权利要求5所述的方法，其中，基于所述语音特征，确定所述音频数据所属的场景类别，还包括：基于所述音频数据在所述时间段内所属的场景类别、以及所述语音交互设备在所述时间段前序的若干连续时间段内采集的历史音频数据在相应时间段内所属的场景类别，确定所述音频数据所属的场景类别。7.如权利要求6所述的方法，其中，基于所述音频数据在所述时间段内所属的场景类别、以及所述语音交互设备在所述时间段前序的若干连续时间段内采集的历史音频数据在
相应时间段内所属的场景类别，确定所述音频数据所属的场景类别，包括：将所述音频数据在所述...

【专利技术属性】
技术研发人员：李林峰，黄海荣，曹阳，
申请(专利权)人：湖北星纪魅族集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人