语音识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：44420020 阅读：14 留言：0更新日期：2025-02-28 18:35

本申请涉及一种语音识别方法、装置、计算机设备和存储介质，用以提升语音识别所得语音信息的准确性。该方法包括：获取待处理数据，并向目标模型输入所述待处理数据；其中，所述待处理数据包括多个模态数据，所述模态数据包括语音信息，且至少两个模态的所述模态数据对应于同一时间片段；通过所述目标模型，确定所述模态数据的模态特征、以及由同一所述时间片段的模态子特征组成的特征集；其中，所述模态特征包括多个所述模态子特征；确定与所述特征集中所述模态子特征对应的第一权重，并基于所述第一权重，融合所述特征集中的所述模态子特征，得到融合特征；基于多个所述时间片段的所述融合特征，确定所述语音信息。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，特别是涉及一种语音识别方法、装置、计算机设备和存储介质。

技术介绍

1、尽管现已通过深度学习模型实现了语音识别，但因噪声类型丰富、音量高等因素，仍然对语音识别结果的准确性有着较大影响。以驾驶室内语音识别为例，噪声包括但不限于引擎声、风噪声、道路噪音以及其他车辆、雷声等来自环境的声音。上述噪声均不同程度地影响语音信号的清晰度和质量，导致当前语音识别的准确性不足。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种语音识别方法、装置、计算机设备和存储介质，以提升语音识别所得语音信息的准确性。

2、第一方面，本申请实施例提供一种语音识别方法，包括：

3、获取待处理数据，并向目标模型输入所述待处理数据；其中，所述待处理数据包括多个模态数据，所述模态数据包括语音信息，且至少两个模态的所述模态数据对应于同一时间片段；

4、通过所述目标模型，确定所述模态数据的模态特征、以及由同一所述时间片段的所述模态子特征组成的特征集；其中，所述模态特征包...

【技术保护点】

1.一种语音识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述确定与所述特征集中所述模态子特征对应的第一权重，包括：

3.如权利要求1或2所述的方法，其特征在于，所述多个模态数据由第一模态数据和第二模态数据组成；所述模态特征由第一模态特征和第二模态特征组成，所述第一模态特征中的第一模态子特征与所述第二模态特征中的第二模态子特征对应于同一所述时间片段；

4.如权利要求1所述的方法，其特征在于，所述多个模态数据包括音频数据；

5.如权利要求4所述的方法，其特征在于，对所述拼接特征进行通道维度上的池化操作，得到所述拼接特征...

【技术特征摘要】

1.一种语音识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述确定与所述特征集中所述模态子特征对应的第一权重，包括：

4.如权利要求1所述的方法，其特征在于，所述多个模态数据包括音频数据；

5.如权利要求4所述的方法，其特征在于，对所述拼接特征进行通道维度上的池化操作，得到所述拼接特征...

【专利技术属性】
技术研发人员：张康，唐辉，胡旭，万鑫，郭宗环，
申请(专利权)人：赛力斯汽车有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人