越南语数字逆文本正则化方法技术

技术编号：39517814 阅读：24 留言：0更新日期：2023-11-25 18:55

本发明专利技术涉及越南语数字逆文本正则化方法，属于自然语言处理技术领域

全部详细技术资料下载

【技术实现步骤摘要】
越南语数字逆文本正则化方法

[0001]本专利技术涉及越南语数字逆文本正则化方法，属于自然语言处理

。

技术介绍

[0002]随着语音识别技术的快速发展，逆文本正则化任务作为语音识别技术的一个重要部分也越来越受关注
。
逆文本正则化任务将语音识别模型的输出转化为可读性较高的书面形式，可以提高语音识别模型输出的可读性，同时也更适合作为下游自然语言处理
(NLP)
任务的输入，方便下游任务的研究开展
。
传统方法使用
FST
方法对语音识别输出进行逆文本正则化，虽然其性能已经很好，但是它需要熟悉不同语言的语法转化规则从而导致构建过程复杂的问题
。
另外，使用语法转化规则构建的
FST
解码速度慢
、
模型体积大
。
后来，随着神经网络的发展，一些研究者提出了使用基于神经网络模型完成逆文本正则化任务的方法
。
但神经网络模型在训练时需要大量标注数据，对于低资源语言逆文本正则...

【技术保护点】

【技术特征摘要】
1.
越南语数字逆文本正则化方法，其特征在于：所述方法的具体步骤如下：
Step1、
收集越南语单语数字语料，并划分训练集
、
验证集和测试集；
Step2、
将输入的越南语句子编码为隐藏序列；
Step3、
利用长度预测器对输入句子的隐藏序列长度进行预测并进行对齐标记得到对齐标记结果；
Step4、
将输入句子的隐藏序列解码得到输出句子；
Step5、
将得到的输出句子送入后处理模块进行处理后得到最终的正则化结果
。2.
根据权利要求1所述的越南语数字逆文本正则化方法，其特征在于：所述步骤
Step2
中，将越南语句子输入到
Transformer
编码器之后生成隐藏序列
H
；然后将隐藏序列
H
分别送入步骤
Step3
中的长度预测器和步骤
Step4
中的
Transformer
解码器中
。3.
根据权利要求1所述的越南语数字逆文本正则化方法，其特征在于：所述
Step3
中，长度预测器用于对输入句子的隐藏序列进行预测并进行对齐标记得到对齐标记结果；其中，长度...

【专利技术属性】
技术研发人员：高盛祥，马峻彬，王俊强，董凌，王文君，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人