缅甸语语音识别纠错方法与装置制造方法及图纸

技术编号:39415278 阅读:10 留言:0更新日期:2023-11-19 16:06
本发明专利技术涉及缅甸语语音识别纠错方法与装置,属于自然语言处理技术领域

【技术实现步骤摘要】
缅甸语语音识别纠错方法与装置


[0001]本专利技术涉及缅甸语语音识别纠错方法与装置,属于自然语言处理



技术介绍

[0002]随着自动语音识别
(Automatic Speech Recognition

ASR)
技术在人机交互实时字幕

会议转录等场景的广泛应用,自动语音识别在多个领域中扮演着越来越重要的角色

受用户发音差异

环境噪声

语言复杂性等因素的影响,实际应用场景下的语音识别仍然存在识别错误

语音识别错误文本对意图识别

语音翻译等下游任务产生影响

语音识别文本纠错能够有效改善
ASR
的识别性能,避免识别错误下游任务的积累,是提升
ASR
系统性能的重要方法

[0003]早期的研究主要是对语音识别错误检测方法的研究,对语音识别错误纠正方法的研究相对较少

随着技术的进步,出现了针对
ASR
文本纠错的三类方法:第一,基于规则的方法使用人工规则来检测和校正文本错误,这种方法需要根据特定语言的语法规则进行定义;第二,基于统计的方法
(

N

Gram

HMM

)
,但基于统计的方法往往无法捕捉到特定语言的细微差异

第三,基于预训练语言模型,如
BERT(Bidirectional Encoder Representations from Transformers)
等模型,使用掩码

预测的方式进行纠错


技术实现思路

[0004]本专利技术提供了缅甸语语音识别纠错方法与装置,以用于提高纠错性能和准确性,降低词错率

[0005]本专利技术的技术方案是:第一方面,本专利技术提供一种缅甸语语音识别纠错方法,所述方法的具体步骤如下:
[0006]Step1、
语料收集:收集若干类错误的正确文本及转录文本的训练语料与测试语料;
[0007]Step2、
提取文本特征:针对转录文本的文本特征空间,通过文本编码器自动提取特征值,获取数据的文本特征;
[0008]Step3、
提取音素特征:针对转录文本的音素特征空间,通过音素编码器自动提取特征值,获取数据的音素特征;
[0009]Step4、
利用标签预测器对转录文本中的字符进行标签判定,实现标签预测;
[0010]Step5、
采用音素上下文提取器获取音素上下文特征信息;
[0011]Step6、
采用多头注意力机制以及
Transformer decoder
,解码文本与音素隐状态,构建缅甸语语音识别文本纠错装置

[0012]进一步地,所述
Step1
中,构建缅甸语语音识别文本纠错数据集,收集得到四类错误,包括空格错误

同音错误

删除错误和漏词错误;首先,利用微软语音识别技术和
Python
编程语言,将收集到的缅甸语文本音频输入缅甸语语音识别接口进行处理;其次,通过同音字替换

随机增加或删除空格以及添加随机生成的字符操作,利用缅甸语单语文本模拟生
成错误文本,以模拟语音识别系统输出的识别错误;最后,将得到的转录文本及其对应的正确文本组成一个二元组
SEN

(RAW,ASR)
,其中
RAW
表示正确文本,
ASR
表示缅甸语语音识别转录文本;这一过程旨在模拟和评估语音识别系统的性能和准确性;
[0013]利用相应工具将
SEN
转换为
PH

(RAW_phome,ASR_phome)
,其中
RAW_phome
表示原始音素数据,
ASR_phome
表示自动语音识别的音素结果,通过这一过程,获得了文本音素对应的纠错语料

[0014]进一步地,所述
Step2
中,利用经过预训练的缅甸语
BERT
模型提取转录文本的文本特征,同时,在步骤
Step3
中获取对应的音素特征;这两种特征提取过程共享了
BERT
模型的参数,通过这种方式,同时获取转录文本和音素的相关特征,从而更准确地捕捉文本和音素之间的关联关系,提高模型的性能和准确性

[0015]进一步地,所述
Step2
的具体步骤如下:对于一个待检测的缅甸语语音识别文本序列,将其表示为
W

{w1,w2,...,w
n
}

n
为文本序列长度,
W
i
为子词建模,经过嵌入层后得到
BERT
的输入序列
X

{x1,x2,x3,...,x
n
}
,文本编码过程如式
(1)
所示:
[0016]E

BERT
TextEncoder
(WE(X)+PE(X))
ꢀꢀꢀꢀ
(1)
[0017]E

{h1,h2,h3...,h
n
}
是编码后的文本特征序列,
h
t
∈R
b
×
l
×
d

X

t
个特征编码表示,
l
为文本序列长度,
d
为特征维度,
WE

PE
分别表示词嵌入与位置嵌入函数

[0018]进一步地,所述
Step3
的具体步骤如下:
[0019]音素编码器将缅甸语语音识别文本转换为对应的音素序列
M

{m1,m2,m3,...m
n
}
,并通过嵌入层将其映射到连续的实数向量空间,得到
Y

{y1,y2,y3,...,y
n
}
;然后,音素嵌入输入编码器得到音素特征编码;音素编码的获取过程如式
(2)
表示;
[0020]P

BERT
PhonemeEncoder
(WE(Y)+PE(Y))
ꢀꢀꢀꢀ
(2)
[0021]式
(2)
中,
P

...

【技术保护点】

【技术特征摘要】
1.
缅甸语语音识别纠错方法,其特征在于:所述方法的具体步骤如下:
Step1、
语料收集:收集若干类错误的正确文本及转录文本的训练语料与测试语料;
Step2、
提取文本特征:针对转录文本的文本特征空间,通过文本编码器自动提取特征值,获取数据的文本特征;
Step3、
提取音素特征:针对转录文本的音素特征空间,通过音素编码器自动提取特征值,获取数据的音素特征;
Step4、
利用标签预测器对转录文本中的字符进行标签判定,实现标签预测;
Step5、
采用音素上下文提取器获取音素上下文特征信息;
Step6、
采用多头注意力机制以及
Transformer decoder
,解码文本与音素隐状态,构建缅甸语语音识别文本纠错装置
。2.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step1
中,构建缅甸语语音识别文本纠错数据集,收集得到四类错误,包括空格错误

同音错误

删除错误和漏词错误;首先,利用微软语音识别技术和
Python
编程语言,将收集到的缅甸语文本音频输入缅甸语语音识别接口进行处理;其次,通过同音字替换

随机增加或删除空格以及添加随机生成的字符操作,利用缅甸语单语文本模拟生成错误文本,以模拟语音识别系统输出的识别错误;最后,将得到的转录文本及其对应的正确文本组成一个二元组
SEN

(RAW,ASR)
,其中
RAW
表示正确文本,
ASR
表示缅甸语语音识别转录文本;这一过程旨在模拟和评估语音识别系统的性能和准确性;利用相应工具将
SEN
转换为
PH

(RAW_phome,ASR_phome)
,其中
RAW_phome
表示原始音素数据,
ASR_phome
表示自动语音识别的音素结果,通过这一过程,获得了文本音素对应的纠错语料
。3.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step2
中,利用经过预训练的缅甸语
BERT
模型提取转录文本的文本特征,同时,在步骤
Step3
中获取对应的音素特征;这两种特征提取过程共享了
BERT
模型的参数,通过这种方式,同时获取转录文本和音素的相关特征,从而更准确地捕捉文本和音素之间的关联关系,提高模型的性能和准确性
。4.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step2
的具体步骤如下:对于一个待检测的缅甸语语音识别文本序列,将其表示为
W

{w1,w2,...,w
n
}

n
为文本序列长度,
W
i
为子词建模,经过嵌入层后得到
BERT
的输入序列
X

{x1,x2,x3,...,x
n
}
,文本编码过程如式
(1)
所示:
E

BERT
TextEncoder
(WE(X)+PE(X))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)E

{h1,h2,h3...,h
n
}
是编码后的文本特征序列,
h
t
∈R
b
×
l
×
d

X

t
个特征编码表示,
l
为文本序列长度,
d
为特征维度,
WE

PE
分别表示词嵌入与位置嵌入函数
。5.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step3...

【专利技术属性】
技术研发人员:余正涛陈璐王剑王文君董凌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1