语音处理、预训练语言模型训练以及语音识别方法技术

技术编号：41245516 阅读：27 留言：0更新日期：2024-05-09 23:56

本说明书实施例提供语音处理、预训练语言模型训练以及语音识别方法，其中所述语音处理方法包括：获取语音处理任务对应的目标语音数据；对目标语音数据进行特征提取，获得目标语音数据的离散特征序列；将离散特征序列输入预训练语言模型，经预训练语言模型的输入单元，基于文本特性对离散特征序列进行分割探索处理，获得分割探索处理结果；经预训练语言模型的编解码单元，根据分割探索处理结果生成目标语音数据对应的处理结果。通过生成离散特征序列，使得语音和文本较为相似，对离散特征序列进行分割探索处理，有效地减少了语音和文本之间的情态差距并保证了语音特性，增强了预训练语言模型在理解和响应语音输入的适应性，提高了语音处理性能。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例涉及计算机，特别涉及一种语音处理方法。

技术介绍

1、随着计算机技术的发展，大规模语言模型(llm，large language mode l)开始大放异彩，在语言理解、生成、交互和推理方面表现出的非凡能力，广泛应用于对话、翻译、代码生成等自然语言处理领域。随着大规模语言模型的突飞猛进，大规模语言模型在语音处理研究中开辟了一个重要的领域。

2、目前，通常采用端对端的语音处理方案：直接将音频序列转化为文字序列，实现准确的语音处理。然而上述方案需要大量资源，语音处理性能较差，因此，亟需一种高性能的语音处理方案。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种语音处理方法。本说明书一个或者多个实施例同时涉及一种预训练语言模型训练方法，一种语音识别方法，一种语音处理装置，一种预训练语言模型训练装置，一种语音识别装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种语音处

【技术保护点】

1.一种语音处理方法，包括：

2.根据权利要求1所述的方法，所述对所述目标语音数据进行特征提取，获得所述目标语音数据的离散特征序列，包括：

3.根据权利要求2所述的方法，所述对所述连续特征序列进行离散化处理，获得所述目标语音数据的离散特征序列，包括：

4.根据权利要求3所述的方法，所述利用均值聚类算法对所述连续特征序列进行离散化处理，获得所述目标语音数据的离散特征序列之后，还包括：

5.根据权利要求1所述的方法，所述输入单元包括语音嵌入单元，所述语音嵌入单元包括多个池化窗口和处理层；

6.根据权利要求5所述的方法，所述处理层包括...

【技术特征摘要】

1.一种语音处理方法，包括：

2.根据权利要求1所述的方法，所述对所述目标语音数据进行特征提取，获得所述目标语音数据的离散特征序列，包括：

3.根据权利要求2所述的方法，所述对所述连续特征序列进行离散化处理，获得所述目标语音数据的离散特征序列，包括：

4.根据权利要求3所述的方法，所述利用均值聚类算法对所述连续特征序列进行离散化处理，获得所述目标语音数据的离散特征序列之后，还包括：

5.根据权利要求1所述的方法，所述输入单元包括语音嵌入单元，所述语音嵌入单元包括多个池化窗口和处理层；

6.根据权利要求5所述的方法，所述处理层包括下采样层、上采样层和残差连接层，所述下采样层用于整合相邻特征信息，所述上采样层用于恢复特征序列长度；

7.根据权利要求5所述的方法，所述利用所...

【专利技术属性】
技术研发人员：马煜坤，张冲，赵胜奎，陈谦，王雯，黄殿文，倪崇嘉，阮庄孝，王昊，马斌，
申请(专利权)人：杭州阿里云飞天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人