基于特征差异集成的非自回归语音识别方法技术

技术编号:44945230 阅读:24 留言:0更新日期:2025-04-12 01:20
本发明专利技术公开了基于特征差异集成的非自回归语音识别方法,包括:步骤1,收集音频数据转为wav格式并标注,划分为训练集、验证集和测试集;步骤2,对数据集中音频文件进行预处理操作;步骤3,统计训练集中的文本数据,通过统计词频、排序、去重后形成token列表;步骤4,构建语音识别模型FDI;步骤5,使用训练集对步骤4构建的FDI模型进行训练,使用验证集评估模型的性能变化,得到语音识别模型;步骤6,使用测试集评估模型的性能。本发明专利技术更直观的从音频数据中学习音频和文字的对齐,并减少了环境噪音、停顿等情况下对语音识别的影响。

【技术实现步骤摘要】

本专利技术属于语音识别,具体涉及基于特征差异集成的非自回归语音识别方法


技术介绍

1、语音识别旨在将音频信号转换为对应的文本数据,通过学习语音样本间的变化规律来检测其中对应的文本内容。随着深度神经网络的出现和发展壮大,语音识别的发展方向也从传统算法走向了深度学习方向,达到并且超越了传统算法的性能。基于深度神经网络的语音识别模型分为了自回归方式和非自回归方式两种,非自回归方式能够在一步或有限步骤内直接预测音频数据中的文本表示,大幅度的提升语音识别过程中的推理效率,已经成为了当前研究热点。语音识别通常是通过大量训练直接将一段音频数据映射为对应的文本表示,由于缺乏对音频特征和文本对应关系的显式建模,现有方法难以精确描述音频中不同片段与文本内容的对应关系和对齐过程,导致模型的训练和优化过程缺乏透明性。面对空白语音、背景噪音和停顿等复杂干扰因素,现有模型在对齐精度和识别性能上表现出明显的局限性。


技术实现思路

1、本专利技术的目的是提供基于特征差异集成的非自回归语音识别方法,旨在以更加直观和高效的方式实现语音与文本的本文档来自技高网...

【技术保护点】

1.基于特征差异集成的非自回归语音识别方法,其特征在于,具体按照以下步骤实施:

2.根据权利要求1所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,收集各种音频格式的音频数据,将其统一转换为wav格式音频文件。

3.根据权利要求2所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,标注是指将音频数据中的内容提取出来文本表示作为真实标签与音频数据对应。

4.根据权利要求3所述的基于特征差异集成的非自回归语音识别方法,其特征在于,所述步骤2中,预处理具体为:计算每个音频文件的采样率和音频长度信息,对于不符合采样...

【技术特征摘要】

1.基于特征差异集成的非自回归语音识别方法,其特征在于,具体按照以下步骤实施:

2.根据权利要求1所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,收集各种音频格式的音频数据,将其统一转换为wav格式音频文件。

3.根据权利要求2所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,标注是指将音频数据中的内容提取出来文本表示作为真实标签与音频数据对应。

4.根据权利要求3所述的基于特征差异集成的非自回归语音识别方法,其特征在于,所述步骤2中,预处理具体为:计算每个音频文件的采样率和音频长度信息,对于不符合采样要求或者音频长度过长和过短的音频数据进行丢弃。

5.根据权利要求4所述的基于特征差...

【专利技术属性】
技术研发人员:黑新宏黄迁华姬文江邱原王一川朱磊郭铨霖
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1