【技术实现步骤摘要】
本专利技术涉及一种基于音素段级表征离散化的无监督语音识别建模方法,属于语音识别领域。
技术介绍
0、技术背景
1、语音识别技术作为人工智能领域的重要分支,近年来取得了长足的进展。然而,对于资源匮乏的语言,其语音识别技术的发展仍然面领着诸多挑战。传统的语音识别方法往往需要大量的标注数据进行模型训练,而对于老挝语这样的数据,标注数据的获取和整理往往是一种耗时且成本高昂的任务。因此,探索一种基于无监督学习的语音识别建模方法,对于推动老挝语等资源匮乏语言的语音识别技术发展具有重要意义。
2、近年来,基于音素段级表征的语音识别建模方法逐渐受到研究者的关注。这种方法通过将连续的语音信号转化为离散表征,能够更好地捕捉语音中的关键信息,提高识别的准确性。同时,离散化的表征方法也有助于减少模型的复杂度,提高计算效率。然而,现有的基于离散表征的语音识别建模方法大多依赖于有监督学习,即需要大量的标注数据来进行模型训练。这对于老挝语等资源匮乏的语言来说,无疑是一个巨大的障碍。因此,研究一种基于音素段级表征离散化的无监督语音识别建模方法,
...【技术保护点】
1.一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:包括:
2.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:所述步骤1中,使用了IFMF模型对原始音频提取音素特征;该IFMF模型通过多特征交互融合的方式充分利用自监督特征和频谱特征的优势对老挝语音频进行音素分割;然后训练一个K-Means聚类算法来聚类音频表征,并获取聚类索引作为离散标记,作为语音识别模型的输入。
3.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:所述步骤2包括:
4.根据权
...【技术特征摘要】
1.一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:包括:
2.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:所述步骤1中,使用了ifmf模型对原始音频提取音素特征;该ifmf模型通过多特征交互融合的方式充分利用自监督特征和频谱特征的优势对老挝语音频进行音素分割;然后训练一个k-means聚类算法来聚类音频表征,并获取聚类索引作为离散标记,作为语音识别模型的输入。
3.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:所述步骤2包括:
4.根据权利要求1所述的一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:...
【专利技术属性】
技术研发人员:余正涛,蒋三龙,董凌,高盛祥,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。