语音处理方法、存储介质及系统技术方案

技术编号:38930776 阅读:11 留言:0更新日期:2023-09-25 09:35
本申请公开了一种语音处理方法、存储介质及系统。其中,该方法包括:获取待处理的语音信息,其中,待处理的语音信息包括:多个语音片段;对多个语音片段进行特征转换,得到转换结果;对转换结果进行特征解码,得到解码结果;基于解码结果确定目标语音处理结果。本申请解决了相关技术中对语音数据流进行处理时的处理效率低、识别准确性差的技术问题。识别准确性差的技术问题。识别准确性差的技术问题。

【技术实现步骤摘要】
语音处理方法、存储介质及系统


[0001]本申请涉及计算机
,具体而言,涉及一种语音处理方法、存储介质及系统。

技术介绍

[0002]语音处理是使用计算机对人类语言进行分析、识别、合成和理解的技术,随着智能化时代的到来,语音处理的应用领域越来越广泛,其对于提供更加智能化的人机交互体验具有重要意义。相关技术中采用不同的语音处理模型对语音数据流进行处理,而各种不同的语音处理模型由于构造原理不同,在进行语音处理时,均存在不同程度的缺陷,从而导致语音数据流的处理效率低下、识别准确性差。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种语音处理方法、存储介质及系统,以至少解决相关技术中对语音数据流进行处理时的处理效率低、识别准确性差的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种语音处理方法,包括:获取待处理的语音信息,其中,所述待处理的语音信息包括:多个语音片段;对所述多个语音片段进行特征转换,得到转换结果;对所述转换结果进行特征解码,得到解码结果;基于所述解码结果确定目标语音处理结果。
[0006]根据本申请实施例的另一方面,还提供了一种语音处理方法,包括:获取待识别的语音信息,其中,所述待识别的语音信息包括:多个语音片段;对所述多个语音片段进行特征转换,得到多个语音特征向量;对所述多个语音特征向量进行特征解码,得到多个文本片段;基于所述多个文本片段确定目标语音识别结果。
[0007]根据本申请实施例的另一方面,还提供了一种语音处理方法,包括:获取待处理的语音信息,其中,待处理的语音信息包括:多个语音片段;采用语音处理大模型对多个语音片段进行特征转换以得到转换结果,以及对转换结果进行特征解码以得到解码结果;基于解码结果确定目标语音处理结果。
[0008]根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行本申请实施例中任意一项所述的语音处理方法。
[0009]根据本申请实施例的另一方面,还提供了一种语音处理系统,包括:处理器;以及存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取待处理的语音信息,其中,所述待处理的语音信息包括:多个语音片段;对所述多个语音片段进行特征转换,得到转换结果;对所述转换结果进行特征解码,得到解码结果;基于所述解码结果确定目标语音处理结果。
[0010]在本申请实施例中,通过获取待处理的语音信息中的多个语音片段,进而对所述
多个语音片段进行特征转换,得到转换结果,随后对所述转换结果进行特征解码,得到解码结果,最后基于所述解码结果确定目标语音处理结果,达到了对语音信息进行高效处理以获得多个语音片段对应的语音处理结果的目的,从而实现了提升对于语音数据流进行处理时的处理效率和识别准确性的技术效果,进而解决了相关技术中对语音数据流进行处理时的处理效率低、识别准确性差的技术问题。
[0011]容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
[0012]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0013]图1示出了一种用于实现语音处理方法的计算机终端(或移动设备)的硬件结构框图;
[0014]图2是根据本申请实施例1的一种语音处理方法的流程图;
[0015]图3是根据本申请实施例1的一种语音处理方法的示意图;
[0016]图4是根据本申请实施例1的又一种语音处理方法的示意图;
[0017]图5是根据本申请实施例2的一种语音处理方法的流程图;
[0018]图6是根据本申请实施例3的一种语音处理方法的流程图;
[0019]图7是根据本申请实施例4的一种语音处理方法的流程图;
[0020]图8是根据本申请实施例1的一种语音处理装置的结构框图;
[0021]图9是根据本申请实施例2的一种语音处理装置的结构框图;
[0022]图10是根据本申请实施例3的一种语音处理装置的结构框图;
[0023]图11是根据本申请实施例4的一种语音处理装置的结构框图;
[0024]图12是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
[0025]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0026]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0027]本申请提供的技术方案主要采用大模型技术实现,此处的大模型是指具有大规模
模型参数的深度学习模型,通常可以包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi

modal pre

training model)等。
[0028]需要说明的是,大模型在实际应用时,可以通过少量样本对预训练模型进行微调,使得大模型可以应用于不同的任务中。例如,大模型可以广泛应用于自然语言处理(Natural Language Processing,NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,VQA)、图像描述(Image Caption,IC)、图像生成等计算机视觉领域任务,也可以广泛应用于基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务。因此,大模型主要的应用场景包括但不限于数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。在本申请实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取待处理的语音信息,其中,所述待处理的语音信息包括:多个语音片段;对所述多个语音片段进行特征转换,得到转换结果;对所述转换结果进行特征解码,得到解码结果;基于所述解码结果确定目标语音处理结果。2.根据权利要求1所述的语音处理方法,其特征在于,对所述多个语音片段进行特征转换,得到所述转换结果包括:在连续多个时刻,采用语音处理大模型依次对所述多个语音片段进行语音编码或者语音分词,得到多个语音特征向量,其中,所述多个时刻与所述多个语音片段一一对应。3.根据权利要求2所述的语音处理方法,其特征在于,对所述转换结果进行特征解码,得到所述解码结果包括:在所述连续多个时刻,采用所述语音处理大模型依次对所述多个语音特征向量进行特征解码,得到多个解码片段。4.根据权利要求3所述的语音处理方法,其特征在于,在所述连续多个时刻,采用所述语音处理大模型依次对所述多个语音特征向量进行特征解码,得到所述多个解码片段包括:在所述连续多个时刻,采用所述语音处理大模型依次对所述多个语音特征向量和上下文信息进行特征解码,得到所述多个解码片段,其中,所述上下文信息由所述多个语音特征向量中当前时刻语音特征向量相关联的历史时刻语音片段与历史时刻解码片段确定。5.根据权利要求4所述的语音处理方法,其特征在于,在所述连续多个时刻,采用所述语音处理大模型依次对所述多个语音特征向量和所述上下文信息进行特征解码,得到所述多个解码片段包括:在所述连续多个时刻,采用所述语音处理大模型依次对所述当前时刻语音特征向量、所述当前时刻语音特征向量相邻的前一时刻语音片段以及所述当前时刻语音特征向量相邻的前一时刻解码片段进行特征解码以得到当前时刻解码片段,直至所述多个语音特征向量全部解码完毕,得到所述多个解码片段。6.根据权利要求2所述的语音处理方法,其特征在于,所述语音处理大模型包括:特征转换模型与特征解码模型。7.根据权利要求6所述的语音处理方法,其特征在于,所述特征解码模型为多模态语言模型。8.根据权利要求7所述的语音处理方法,其特征在于,对所述转换结果进行特征解码,得到所述解码结果包括:采用所述多模态语言模型对所述转换结果进行特征解码,得到所述解码结果;或者,采用所述多模态语言模型对所述转换结果进行非特征解码,得到所述解码结果。9.根据权利要求1所述的语音处理方法,其特征在于,通过终端设备提供一图形用户界面,所述图形用户界面所显示的内容至少部分地包含一语音处理场景,所述语音处理方法还包括:响应...

【专利技术属性】
技术研发人员:陈谦郑斯奇张仕良张庆林王雯
申请(专利权)人:杭州阿里巴巴飞天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1