【技术实现步骤摘要】
缅甸语语音识别纠错方法与装置
[0001]本专利技术涉及缅甸语语音识别纠错方法与装置,属于自然语言处理
。
技术介绍
[0002]随着自动语音识别
(Automatic Speech Recognition
,
ASR)
技术在人机交互实时字幕
、
会议转录等场景的广泛应用,自动语音识别在多个领域中扮演着越来越重要的角色
。
受用户发音差异
、
环境噪声
、
语言复杂性等因素的影响,实际应用场景下的语音识别仍然存在识别错误
。
语音识别错误文本对意图识别
、
语音翻译等下游任务产生影响
。
语音识别文本纠错能够有效改善
ASR
的识别性能,避免识别错误下游任务的积累,是提升
ASR
系统性能的重要方法
。
[0003]早期的研究主要是对语音识别错误检测方法的研究,对语音识别错误纠正方法的研究相对较少
。
随着技术的进步,出现了针对
ASR
文本纠错的三类方法:第一,基于规则的方法使用人工规则来检测和校正文本错误,这种方法需要根据特定语言的语法规则进行定义;第二,基于统计的方法
(
如
N
‑
Gram
,
HMM
等
)
,但基于统计的方法往往无法捕捉到特定语言的细微差异
。
第三,基于
【技术保护点】
【技术特征摘要】
1.
缅甸语语音识别纠错方法,其特征在于:所述方法的具体步骤如下:
Step1、
语料收集:收集若干类错误的正确文本及转录文本的训练语料与测试语料;
Step2、
提取文本特征:针对转录文本的文本特征空间,通过文本编码器自动提取特征值,获取数据的文本特征;
Step3、
提取音素特征:针对转录文本的音素特征空间,通过音素编码器自动提取特征值,获取数据的音素特征;
Step4、
利用标签预测器对转录文本中的字符进行标签判定,实现标签预测;
Step5、
采用音素上下文提取器获取音素上下文特征信息;
Step6、
采用多头注意力机制以及
Transformer decoder
,解码文本与音素隐状态,构建缅甸语语音识别文本纠错装置
。2.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step1
中,构建缅甸语语音识别文本纠错数据集,收集得到四类错误,包括空格错误
、
同音错误
、
删除错误和漏词错误;首先,利用微软语音识别技术和
Python
编程语言,将收集到的缅甸语文本音频输入缅甸语语音识别接口进行处理;其次,通过同音字替换
、
随机增加或删除空格以及添加随机生成的字符操作,利用缅甸语单语文本模拟生成错误文本,以模拟语音识别系统输出的识别错误;最后,将得到的转录文本及其对应的正确文本组成一个二元组
SEN
=
(RAW,ASR)
,其中
RAW
表示正确文本,
ASR
表示缅甸语语音识别转录文本;这一过程旨在模拟和评估语音识别系统的性能和准确性;利用相应工具将
SEN
转换为
PH
=
(RAW_phome,ASR_phome)
,其中
RAW_phome
表示原始音素数据,
ASR_phome
表示自动语音识别的音素结果,通过这一过程,获得了文本音素对应的纠错语料
。3.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step2
中,利用经过预训练的缅甸语
BERT
模型提取转录文本的文本特征,同时,在步骤
Step3
中获取对应的音素特征;这两种特征提取过程共享了
BERT
模型的参数,通过这种方式,同时获取转录文本和音素的相关特征,从而更准确地捕捉文本和音素之间的关联关系,提高模型的性能和准确性
。4.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step2
的具体步骤如下:对于一个待检测的缅甸语语音识别文本序列,将其表示为
W
=
{w1,w2,...,w
n
}
,
n
为文本序列长度,
W
i
为子词建模,经过嵌入层后得到
BERT
的输入序列
X
=
{x1,x2,x3,...,x
n
}
,文本编码过程如式
(1)
所示:
E
=
BERT
TextEncoder
(WE(X)+PE(X))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)E
=
{h1,h2,h3...,h
n
}
是编码后的文本特征序列,
h
t
∈R
b
×
l
×
d
为
X
第
t
个特征编码表示,
l
为文本序列长度,
d
为特征维度,
WE
和
PE
分别表示词嵌入与位置嵌入函数
。5.
根据权利要求1所述的缅甸语语音识别纠错方法,其特征在于:所述
Step3...
【专利技术属性】
技术研发人员:余正涛,陈璐,王剑,王文君,董凌,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。