当前位置: 首页 > 专利查询>之江实验室专利>正文

基于规则生成数据增强的手语词目序列翻译方法及系统技术方案

技术编号:39498982 阅读:12 留言:0更新日期:2023-11-24 11:28
本发明专利技术公开了一种基于规则生成数据增强的手语词目序列翻译方法及系统,包括以下步骤:基于语义相似度建立中文词到手语词目的映射关系;基于映射关系通过替换方式将中文文本序列翻译成伪手语词目序列,基于噪声规则将伪手语词目序列增强以生成伪平行语料对;利用伪平行语料对预训练机器翻译模型得到预训练模型;利用真实双语语料对预训练模型进行微调得到最终翻译模型;利用最终翻译模型进行手语词目序列的翻译

【技术实现步骤摘要】
基于规则生成数据增强的手语词目序列翻译方法及系统


[0001]本专利技术属于自然语言处理和手语翻译领域,具体涉及一种基于规则生成数据增强的手语词目序列翻译方法及系统


技术介绍

[0002]听障人士主要使用手语进行交流

近年来,基于神经网络的神经机器翻译在翻译领域表现优秀,但在手语翻译方面存在挑战

这是因为手语翻译领域缺乏大规模数据集和统一的手语标注方法,训练效果不佳,导致翻译结果准确度较低,难以被手语使用者认可

手语数据稀缺性成为制约手语翻译技术发展的重要因素

[0003]专利文献
CN116092191A
公开了一种用于手语翻译的新型词级对比学习框架及手语翻译系统,包括:手语语料选取建模,手语视觉特征提取,端到端手语视频转换,训练阶段句子嵌入,构建正例对及负例对,手语翻译模型损失计算,手语翻译结果输出

该技术方案虽然通过一种新型词级对比学习框架,在训练集数据集较少的情况下也能够较好地学习和表示手语,从而提高手语翻译结果的准确度

但是训练集无法覆盖手语的各种语义和语法结构,限制了模型的学习能力和泛化能力,从而导致在实际翻译中的泛化能力不足

该翻译方法旨在解决低资源下,用新型学习框架提升翻译效果,但是并未解决手语数据集稀缺的问题

[0004]专利文献
CN114840670A
公开了一种中文文本到手语词序列的翻译方法及装置,包括:获取待翻译的中文文本,对中文文本进行预处理,得到预处理文本,通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列,对手语词序列进行后处理,得到目标手语词序列

该技术方案虽然通过统一的手语标注方法得到中文文本对应的标注手语词序,并对标准手语词序列进行修正后得到双语语料库,使得双语语料库的翻译结果符合手语语法,从而提高了该双语预料库中翻译结果的准确度

但是统一的手语标注需要耗费大量时间和人力资源,无法实现快速大规模的手语翻译

同样,该方法得到的手语数据集较有限


技术实现思路

[0005]鉴于上述,本专利技术的目的是提供一种基于规则生成数据增强的手语词目序列翻译方法及系统,以解决手语翻译领域低资源的问题,能够实现有限手语数据集的有效扩充并将中文文本转写生成手语词目序列,从而尽可能使手语词目翻译水平提高,为听障人士带来便利

[0006]为实现上述专利技术目的,实施例提供的基于规则生成数据增强的手语词目序列翻译方法,包括以下步骤:
[0007]1)
基于语义相似度建立中文词到手语词目的映射关系;
[0008]2)
基于映射关系通过替换方式将中文文本序列翻译成伪手语词目序列,基于噪声规则将伪手语词目序列增强以生成伪平行语料对;
[0009]3)
利用伪平行语料对预训练机器翻译模型得到预训练模型;
[0010]4)
利用真实双语语料对预训练模型进行微调得到最终翻译模型;
[0011]5)
利用最终翻译模型进行手语词目序列的翻译

[0012]优选地,所述基于语义相似度建立中文词到手语词目的映射关系,包括:
[0013]基于现有语料构建中文文本序列词表和手语词目序列词表;利用词嵌入向量模型获得中文文本词表和手语词目序列词表的词嵌入向量;计算中文文本词表和手语词目序列词表的词嵌入向量的笛卡尔距离;基于最小笛卡尔距离,对齐中文文本和手语词目序列的词表,建立中文词到手语词目的映射关系

[0014]优选地,所述基于映射关系通过替换方式将中文文本序列翻译成伪手语词目序列,包括:
[0015]收集中文文本;基于筛选规则从中文文本筛选出中文单语语料;基于中文词到手语词目的映射关系,对中文单语语料进行分词;将筛选出的中文单语语料通过替换方式翻译为伪手语词目序列

[0016]优选地,所述基于筛选规则从中文文本筛选出中文单语语料,所述筛选规则,包括:
[0017]删除包含地址关键字的句子;删除包含英文字母的句子;删除包含电话号码的句子;识别句子中的实体词,并删除包含一个及以上实体词的句子;删除中文文本中句子长度包括标点符号在内低于六个字符的句子;删除中文文本中句子长度包括标点符号在内超过三十个字符的句子;以及进行人工审阅,并删除句子中的语气词筛选出的中文单语语料中的至少一种

[0018]优选地,所述基于噪声规则将伪手语词目序列增强以生成伪平行语料对,所述噪声规则,包括:
[0019]对文本进行词性标注,只保留名词

动词

形容词

副词

数词和专有名词;长度大于十个字符的句子,随机删除词并打乱词序;长度小于等于十个字符的句子,不做处理;以及对数词进行映射,从汉字映射到阿拉伯数字,并删去后面的量词中的至少一种

[0020]优选地,所述利用伪平行语料对预训练机器翻译模型得到预训练模型,所述机器翻译模型采用
Transformer
模型

[0021]优选地,所述利用真实双语语料对预训练模型进行微调得到最终翻译模型,包括:
[0022]最终翻译模型采用与预训练模型相同的结构,将预训练模型的所有参数作为最终翻译模型的初始化参数,并利用真实双语语料对最终翻译模型进行训练

[0023]为实现上述专利技术目的,实施例还提供了基于规则生成数据增强的手语词目序列翻译系统,包括:
[0024]所述映射关系建立模块,用于基于语义相似度建立中文词到手语词目的映射关系;
[0025]所述数据增强模块,用于基于映射关系通过替换方式将中文文本序列翻译成伪手语词目序列,基于噪声规则将伪手语词目序列增强以生成伪平行语料对;
[0026]所述预训练模块,用于利用伪平行语料对预训练机器翻译模型得到预训练模型;
[0027]所述微调模块,用于利用真实双语语料对预训练模型进行微调得到最终翻译模型;
[0028]所述翻译模块,用于利用最终翻译模型进行手语词目序列的翻译

[0029]为实现上述专利技术目的,实施例还提供了一种计算设备,包括存储器

处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述存储器中存有带有标签的饰品,所述处理器执行所述计算机程序时实现上述基于规则生成数据增强的手语词目序列翻译方法的步骤

[0030]为实现上述专利技术目的,实施例提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现上述基于规则生成数据增强的手语词目序列翻译方法的步骤

[0031]与现有技术相比,本专利技术具有的有益效果至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于规则生成数据增强的手语词目序列翻译方法,其特征在于,其特征在于,包括以下步骤:
1)
基于语义相似度建立中文词到手语词目的映射关系;
2)
基于映射关系通过替换方式将中文文本序列翻译成伪手语词目序列,基于噪声规则将伪手语词目序列增强以生成伪平行语料对;
3)
利用伪平行语料对预训练机器翻译模型得到预训练模型;
4)
利用真实双语语料对预训练模型进行微调得到最终翻译模型;
5)
利用最终翻译模型进行手语词目序列的翻译
。2.
根据权利要求1所述的基于规则生成数据增强的手语词目序列翻译方法,其特征在于,步骤
1)
中,所述基于语义相似度建立中文词到手语词目的映射关系,包括:基于现有语料构建中文文本序列词表和手语词目序列词表;利用词嵌入向量模型获得中文文本词表和手语词目序列词表的词嵌入向量;计算中文文本词表和手语词目序列词表的词嵌入向量的笛卡尔距离;基于最小笛卡尔距离,对齐中文文本和手语词目序列的词表,建立中文词到手语词目的映射关系
。3.
根据权利要求1所述的基于规则生成数据增强的手语词目序列翻译方法,其特征在于,步骤
2)
中,所述基于映射关系通过替换方式将中文文本序列翻译成伪手语词目序列,包括:收集中文文本;基于筛选规则从中文文本筛选出中文单语语料;对中文单语语料进行分词;基于中文词到手语词目的映射关系,将分词后的中文单语语料通过替换方式翻译为伪手语词目序列
。4.
根据权利要求3所述的基于规则生成数据增强的手语词目序列翻译方法,其特征在于,所述筛选规则,包括:删除包含地址关键字的句子;删除包含英文字母的句子;删除包含电话号码的句子;识别句子中的实体词,并删除包含一个及以上实体词的句子;删除中文文本中句子长度包括标点符号在内低于六个字符的句子;删除中文文本中句子长度包括标点符号在内超过三十个字符的句子;以及进行人工审阅,并删除句子中的语气词筛选出的中文单语语料中的至少一种
。5.
根据权利要求3中所述的基于规则生成数据增强的手语词目序列翻译方法,其特征在于,所述噪声规则,包括:对文本进行词性标注,只保留名词
、<...

【专利技术属性】
技术研发人员:黄君豪毛瑞琛杨纲李萌坚
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1