一种基于音素段级表征离散化的无监督语音识别建模方法技术

技术编号：44294094 阅读：17 留言：0更新日期：2025-02-18 20:14

本发明专利技术涉及基于音素段级表征离散化的无监督语音识别建模方法，属语音识别领域。本发明专利技术通过语音特征离散化模块使用了IFMF模型对原始音频提取音素特征，然后训练一个K‑Means聚类算法来聚类音频表征，并获取聚类索引作为离散标记；通过对抗学习模块训练一个生成器网络和一个鉴别器；通过语音离散表征解码器模块使用语言模型对无监督训练得到的基于音素离散化的模型输出进行解码。本发明专利技术融合多种语音特征，采用音素段级表征离散化的方式，既考虑到了声调信息对老挝语的影响，又尽可能降低细粒度特征造成的信息冗余对跨模态建模的影响。本发明专利技术的方法与传统语音识别方法相比取得具有竞争力的结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于音素段级表征离散化的无监督语音识别建模方法，属于语音识别领域。

技术介绍

0、技术背景

1、语音识别技术作为人工智能领域的重要分支，近年来取得了长足的进展。然而，对于资源匮乏的语言，其语音识别技术的发展仍然面领着诸多挑战。传统的语音识别方法往往需要大量的标注数据进行模型训练，而对于老挝语这样的数据，标注数据的获取和整理往往是一种耗时且成本高昂的任务。因此，探索一种基于无监督学习的语音识别建模方法，对于推动老挝语等资源匮乏语言的语音识别技术发展具有重要意义。

2、近年来，基于音素段级表征的语音识别建模方法逐渐受到研究者的关注。这种方法通过将连续的语音信号转化为离散表征，能够更好地捕捉语音中的关键信息，提高识别的准确性。同时，离散化的表征方法也有助于减少模型的复杂度，提高计算效率。然而，现有的基于离散表征的语音识别建模方法大多依赖于有监督学习，即需要大量的标注数据来进行模型训练。这对于老挝语等资源匮乏的语言来说，无疑是一个巨大的障碍。因此，研究一种基于音素段级表征离散化的无监督语音识别建模方法，...

【技术保护点】

1.一种基于音素段级表征离散化的无监督语音识别建模方法，其特征在于：包括：

2.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法，其特征在于：所述步骤1中，使用了IFMF模型对原始音频提取音素特征；该IFMF模型通过多特征交互融合的方式充分利用自监督特征和频谱特征的优势对老挝语音频进行音素分割；然后训练一个K-Means聚类算法来聚类音频表征，并获取聚类索引作为离散标记，作为语音识别模型的输入。

3.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法，其特征在于：所述步骤2包括：

4.根据权利要求1所述的一种基...

【技术特征摘要】

1.一种基于音素段级表征离散化的无监督语音识别建模方法，其特征在于：包括：

2.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法，其特征在于：所述步骤1中，使用了ifmf模型对原始音频提取音素特征；该ifmf模型通过多特征交互融合的方式充分利用自监督特征和频谱特征的优势对老挝语音频进行音素分割；然后训练一个k-means聚类算法来聚类音频表征，并获取聚类索引作为离散标记，作为语音识别模型的输入。

3.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法，其特征在于：所述步骤2包括：

4.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法，其特征在于：...

【专利技术属性】
技术研发人员：余正涛，蒋三龙，董凌，高盛祥，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人