融合越南语语言知识的口语表达适应方法技术

技术编号:42305947 阅读:45 留言:0更新日期:2024-08-14 15:52
本发明专利技术提出融合越南语语言知识的口语表达适应方法,属语音识别领域。本发明专利技术设计了越南语特征编码模块、越南语预训练语言模型知识迁移模块、越南语自适应解码器模块。包括步骤:数据的选择及预处理;通过越南语特征编码模块对处理后的数据编码,得到高维特征向量;通过越南语预训练语言模型知识迁移模块实现知识的迁移;通过越南语自适应解码器模块解码出一系列候选序列,然后将得到的序列进行二次打分后,再以Teacher‑forcing方式解码取最高分数序列作为解码结果。本发明专利技术通过利用师生学习方法从越南语预训练语言模型PhoBER T中迁移知识,解决了越南语口语表达与书面语类型训练数据不一致造成的识别率下降问题。

【技术实现步骤摘要】

本专利技术涉及融合越南语语言知识的口语表达适应方法,属于语音识别领域。


技术介绍

0、技术背景

1、语音识别口语表达适应对提升自动语音识别(asr)系统的识别准确率有着重要作用。越南语书面语与口语表达间的显著差异,尤其是口语中特有的代指词汇和省略句结构,在现有的语音识别模型训练语料中并未得到充分涵盖,导致基于书面语训练的模型在解码口语时出现偏差,识别性能在实际应用中明显低于测试阶段。鉴于此,提升越南语语音识别系统对口语表达的适应能力,被认为是克服此类问题、提高识别准确性的重要技术途径。

2、目前,针对越南语口语表达适应领域的主要解决方法是通过从不同来源收集大量文本数据,对数据进行领域分类,以及训练针对特定领域的n-gram语言模型的方法,在解码时额外融合对话风格的语言模型。然而,训练语料有限,无法充分覆盖实际场景中口语表达的丰富词汇和语法序列。目前已有专门针对越南语的预训练语言模型phobert,该模型能够从大量的未标注口语数据中学习到语言的丰富表征,具有较强的表征能力,大大减少了asr模型对标注数据的依赖,能够提高模型的泛化能力。本文档来自技高网...

【技术保护点】

1.融合越南语语言知识的口语表达适应方法,其特征在于:所述方法包括如下步骤:

2.根据权利要求1所述融合越南语语言知识的口语表达适应方法,其特征在于:所述Step1中,数据选择为开源越南语语音识别数据集VIVOS;预处理操作包括单词分词、特殊字符去除和冗余内容去除。

3.根据权利要求1所述融合越南语语言知识的口语表达适应方法,其特征在于:所述Step2中,构建的越南语特征编码模块包括特征提取层和编码层;特征提取层用于从原始语音信号中提取声学特征;编码层用于将这些声学特征转换为高维的特征向量,以便更好地捕捉带有越南语特有的音素和韵律信息的表征;编码过程表示为:...

【技术特征摘要】

1.融合越南语语言知识的口语表达适应方法,其特征在于:所述方法包括如下步骤:

2.根据权利要求1所述融合越南语语言知识的口语表达适应方法,其特征在于:所述step1中,数据选择为开源越南语语音识别数据集vivos;预处理操作包括单词分词、特殊字符去除和冗余内容去除。

3.根据权利要求1所述融合越南语语言知识的口语表达适应方法,其特征在于:所述step2中,构建的越南语特征编码模块包括特征提取层和编码层;特征提取层用于从原始语音信号中提取声学特征;编码层用于将这些声学特征转换为高维的特征向量,以便更好地捕捉带有越南语特有的音素和韵律信息的表征;编码过程表示为:

4.根...

【专利技术属性】
技术研发人员:余正涛李金龙董凌王文君
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1