一种中文口音识别方法、装置、设备及介质制造方法及图纸

技术编号：40230818 阅读：18 留言：0更新日期：2024-02-02 22:32

本发明专利技术提供了一种中文口音识别方法、装置、设备及介质，涉及口音识别技术领域，能够识别非母语人群的口音。首先，语音信号输入Wave2vec2.0预训练模型抽取编码器的深层隐藏层进行拼接，得到层次化聚合向量。然后，将层次化聚合向量输入到注意力统计池化网络，根据注意力权重计算统计特征均值和统计特征方差，两者拼接得到紧凑的聚合口音特征。最后，聚合口音特征输入到LSTM网络中学习语音序列的长期依赖关系，获得口音依赖特征，将口音依赖特征输入全连接分类器实现口音分类。利用语音预训练模型提取更高层次的语义信息，并利用注意力统计池化捕捉语音特征在时间上的变化和分布，有效地提取口音特征并增强口音特征的判别性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及口音识别，具体涉及一种中文口音识别方法、装置、设备及介质。

技术介绍

1、口音指个人或群体特有的发音方式，其反映了特定地区、社会群体或个人的语音特点和发音习惯；当前常见的口音类型有个人口音、地域口音、社会群体口音和第二语言口音。研究非母语学习者口音的价值在于推动文化多样性的尊重与认可、改进语言教育和技术应用、了解语言的历史演变和身份认同等方面。口音识别本质上是对口音类型的分类，而口音语音识别本质上是生成口音语音对应的文本，二者虽可单独研究，但口音识别经常以先行步骤融合到口音语音识别研究中。现市面上，单独研究口音识别的技术以分类算法为框架，集中于特征研究，侧重口音自身特征信息的挖掘，具有更高的口音分辨能力。

2、当前市面上的非母语的中文口音识别技术面临的一些现状在于：第一，口音的种类多样、复杂，缺少合适的口音数据集，非母语学习者的中文口音识别是一个典型的低资源问题；第二，由于群体内说话者的口音之间差异从而影响到口音识别的类区分性；第三，专门针对非母语的中文口音识别研究鲜有涉及；同时，尽管当前已经有很多口音识别的研...

【技术保护点】

1.一种中文口音识别方法,其特征在于，包括：

2.根据权利要求1所述的一种中文口音识别方法，其特征在于，获取待识别的语音信号，将所述语音信号输入至Wave2vec2.0预训练模型中，并抽取所述Wave2vec2.0预训练模型中编码器模块的深层隐藏层对所述语音信号进行拼接处理，生成层次化聚合向量，具体为：

3.根据权利要求2所述的一种中文口音识别方法，其特征在于，将所述层次化聚合向量输入至注意力统计池化网络中，根据注意力权重对所述层次化聚合向量进行计算，生成统计特征均值和统计特征方差，并将所述统计特征均值和所述统计特征方差进行拼接处理，生成紧凑的聚合口音特征，具体为...

【技术特征摘要】

1.一种中文口音识别方法,其特征在于，包括：

2.根据权利要求1所述的一种中文口音识别方法，其特征在于，获取待识别的语音信号，将所述语音信号输入至wave2vec2.0预训练模型中，并抽取所述wave2vec2.0预训练模型中编码器模块的深层隐藏层对所述语音信号进行拼接处理，生成层次化聚合向量，具体为：

3.根据权利要求2所述的一种中文口音识别方法，其特征在于，将所述层次化聚合向量输入至注意力统计池化网络中，根据注意力权重对所述层次化聚合向量进行计算，生成统计特征均值和统计特征方差，并将所述统计特征均值和所述统计特征方差进行拼接处理，生成紧凑的聚合口音特征，具体为：

4.根据权利要求3所述的一种中文口音识别方法，其特征在于，调用lstm网络对所述聚合口音特征进行语音序列的长期依赖关系的学习处理，获得口音依赖特征，并将所述口音依赖特征输入全连接分类器中进行分类...

【专利技术属性】
技术研发人员：王华珍，陈建国，周浩，贺阳，戴朝，缑锦，
申请(专利权)人：华侨大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人