处理音频数据的方法及装置、音频数据处理设备和介质制造方法及图纸

技术编号:39249171 阅读:13 留言:0更新日期:2023-10-30 12:01
本公开的至少一实施例提供了一种处理音频数据的方法和装置、音频数据处理设备和计算机可读存储介质。本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据,分别从中提取语音特征和语音文本,继而基于语音特征和语音文本确定对音频数据的拒识概率,并且基于语音特征对该音频数据所属的场景进行分类,以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。该方法能够利用包括声音和文本的多模态信息进行拒识概率确定,并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景,从而基于两类结果的融合实现更准确的语音交互拒识判断。的融合实现更准确的语音交互拒识判断。的融合实现更准确的语音交互拒识判断。

【技术实现步骤摘要】
处理音频数据的方法及装置、音频数据处理设备和介质


[0001]本公开涉及人工智能领域,更具体地,涉及处理音频数据的方法以及装置、音频数据处理设备和存储介质。

技术介绍

[0002]语音交互技术在现代社会中扮演着越来越重要的角色。随着诸如智能手机、智能音箱和语音助手等的语音交互设备的普及,人们越来越多地使用语音交互来完成各种任务,诸如发送短信、查询信息和控制智能家居设备等。

技术实现思路

[0003]本公开的至少一实施例提供了一种处理音频数据的方法,所述方法包括:从由语音交互设备获取的音频数据中提取语音特征;对所述音频数据进行语音识别,以获得与所述音频数据相对应的语音文本;基于所述语音特征和所述语音文本,确定对所述音频数据的拒识概率;基于所述语音特征,确定所述音频数据所属的场景类别;以及基于所确定的拒识概率和场景类别,确定对所述音频数据的拒识结果,所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。
[0004]本公开的至少一实施例提供了一种音频数据处理装置,包括:语音特征提取模块,被配置为从由语音交互设备获取的音频数据中提取语音特征;语音文本生成模块,被配置为对所述音频数据进行语音识别,以获得与所述音频数据相对应的语音文本;拒识概率确定模块,被配置为基于所述语音特征和所述语音文本,确定对所述音频数据的拒识概率;场景类别确定模块,被配置为基于所述语音特征,确定所述音频数据所属的场景类别;以及拒识结果确定模块,被配置为基于所确定的拒识概率和场景类别,确定对所述音频数据的拒识结果,所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。
[0005]本公开的至少一实施例提供了一种音频数据处理设备,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的处理音频数据的方法。
[0006]本公开的至少一实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的处理音频数据的方法。
[0007]本公开的至少一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的至少一实施例的处理音频数据的方法。
附图说明
[0008]为了更清楚地说明本公开的至少一实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示
Language processing,NLP)的。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
[0016]本公开的至少一实施例的处理音频数据的方法可以基于自动语音识别(Automatic Speech Recognition,ASR)技术。自动语音识别的原理是通过分析语音信号的频率、声强和时长等特征,来识别出语音中的各个音素或单词。这需要使用大量的训练数据和复杂的算法来实现。随着计算机技术的发展和机器学习算法的不断改进,自动语音识别的准确度和性能也得到了显著提高。自动语音识别在很多领域都有着广泛的应用,例如,在语音助手和智能家居设备中,它可以帮助用户通过语音指令来控制设备或获取信息,在电话客服和语音导航系统中,它可以自动识别用户的语音输入并提供相应的服务,在语音转写和翻译领域,它可以将语音内容转化为文本,方便人们阅读和理解。在本公开的至少一实施例中,可以利用自动语音识别技术来从音频数据中获取文本特征,以用于执行语音交互拒识判断。
[0017]本公开的至少一实施例的处理音频数据的方法可以基于语音交互拒识技术。语音交互拒识领域的
技术介绍
涵盖了语音识别、自然语言处理和机器学习等多个领域。语音交互拒识是指通过语音交互技术对非特定目标进行拒识的方法。在语音交互系统中,用户通过语音与系统进行交互,系统需要能够识别用户的意图并做出相应的回应。然而,有时候系统可能会遇到一些无法识别的语音输入、或者并非真正的用户交互指令,这时就需要对这些输入进行拒识,即对这些语音输入进行过滤。常见的语音交互拒识方法可以包括但不限于基于声学特征的拒识方法、基于语义特征的拒识方法、基于上下文的拒识方法等。例如,基于声学特征的拒识方法通过提取语音信号的声学特征(诸如频谱特征、梅尔频率倒谱系数(MFCC)、过零率等),使用机器学习算法(如支持向量机、随机森林等)对这些特征进行分类,从而判断是否为特定目标,并且当无法识别的语音输入与已有的特定目标差异较大时,可以判断为拒识。基于语义特征的拒识方法可以通过将语音输入转换为文本,然后提取文本的语义特征,诸如词向量表示、主题模型等,然后使用机器学习或深度学习算法进行分类,从而判断是否为特定目标,并且当无法识别的语音输入与已有的特定目标不符合语义上的一致性时,可以判断为拒识。基于上下文的拒识方法可以通过分析语音输入的上下文信息来进行拒识,例如,可以利用对话历史、用户行为模式等信息,对无法识别的语音输入进行上下文分析,从而判断是否为特定目标。语音交互拒识是语音交互系统中的一个重要问题,可以通过声学特征、语义特征以及上下文等信息来进行拒识,从而提高语音交互系统的鲁棒性和用户体验。
[0018]综上所述,本公开的至少一实施例提供的方案涉及人工智能、自然语言处理、语音交互拒识等技术中的一项或多项,下面将结合附图对本公开的至少一实施例进行进一步地描述。
[0019]在语音交互过程中,一般需要先唤醒设备再下达指令,但是频繁的唤醒动作可能带来不好的用户体验,如果不唤醒直接交互,又存在用户的非交互指令被误认为是语音交互指令的情况。
[0020]在专利技术人所知的技术中,可以在语音交互系统中部署一个语音交互拒识模块,用于过滤掉非交互语句,以筛选出真正的用户交互指令。
[0021]语音交互拒识方法可以是基于自然语言文本的,将用户的语音指令或问题转化为文本表示,然后使用自然语言处理技术进行分析和理解。基于自然语言文本的语音交互拒识方法在一定程度上提高了语音交互系统的准确性和智能化程度。
[0022]图1是示出根据本公开的至少一实施例的基于语音交互设备采集的音频数据进行拒识处理的场景示意图。
[0023]如图1所示,语音交互设备可以对其所在的环境进行实时音频采集,并且可以通过网络将所采集的音频数据发送到服务器,以供服务器对该输入音频数据进行拒识判断处理。随后,服务器可将所生成的拒识结果通过网络返回到用户终端。当然,上述音频采集和实时拒识判断处理同样可以在语音交互设备本地完成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.处理音频数据的方法,所述方法包括:从由语音交互设备获取的音频数据中提取语音特征;对所述音频数据进行语音识别,以获得与所述音频数据相对应的语音文本;基于所述语音特征和所述语音文本,确定对所述音频数据的拒识概率,所述拒识概率指示所述语音交互设备对所述音频数据进行拒识的概率;基于所述语音特征,确定所述音频数据所属的场景类别,所述场景类别包括交互场景和非交互场景;以及基于所确定的拒识概率和场景类别,确定对所述音频数据的拒识结果,其中,所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。2.如权利要求1所述的方法,其中,所述音频数据是由所述语音交互设备在一时间段内获取的;其中,从由语音交互设备获取的音频数据中提取语音特征包括:提取所述音频数据的频谱特征,所述频谱特征包括语气特征、语调特征、语速特征中的至少一种;以及基于所述音频数据以及所述语音交互设备在所述时间段前序的若干连续时间段内采集的历史音频数据,获得所述音频数据的语音特征,所述语音特征包括所述音频数据的频谱特征与所述历史音频数据的频谱特征的融合。3.如权利要求1所述的方法,其中,对所述音频数据进行语音识别,以获得与所述音频数据相对应的语音文本,包括:对所述音频数据进行语音识别,并通过字嵌入处理生成与所述音频数据相对应的语音文本,其中,所述语音文本中的每个字以多维字向量表示。4.如权利要求1所述的方法,其中,基于所述语音特征和所述语音文本,确定对所述音频数据的拒识概率,包括:对所述语音特征和所述语音文本进行拼接,并通过第一卷积神经网络确定对所述音频数据的拒识概率。5. 如权利要求2所述的方法,其中,基于所述语音特征,确定所述音频数据所属的场景类别,包括:基于所述语音特征,通过第二卷积神经网络确定所述音频数据属于多个场景类别中的每个场景类别的概率;以及基于所述概率确定所述音频数据在所述时间段内所属的场景类别;其中,所述多个场景类别包括交互场景和非交互场景,所述非交互场景包括多人聊天场景、打电话场景、影音播放场景中的一个或多个。6.如权利要求5所述的方法,其中,基于所述语音特征,确定所述音频数据所属的场景类别,还包括:基于所述音频数据在所述时间段内所属的场景类别、以及所述语音交互设备在所述时间段前序的若干连续时间段内采集的历史音频数据在相应时间段内所属的场景类别,确定所述音频数据所属的场景类别。7.如权利要求6所述的方法,其中,基于所述音频数据在所述时间段内所属的场景类别、以及所述语音交互设备在所述时间段前序的若干连续时间段内采集的历史音频数据在
相应时间段内所属的场景类别,确定所述音频数据所属的场景类别,包括:将所述音频数据在所述...

【专利技术属性】
技术研发人员:李林峰黄海荣曹阳
申请(专利权)人:湖北星纪魅族集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1