一种基于无监督伪语义数据增强的零样本多语言理解算法制造技术

技术编号:39929901 阅读:19 留言:0更新日期:2024-01-08 21:44
本发明专利技术公开了一种基于无监督伪语义数据增强的零样本多语言理解算法,利用一种无监督伪语义数据增强机制,在无需人工干预的情况下对训练数据进行增强。本发明专利技术为获得多语言相似语义token设计了一个从单语言过渡到多语言的序列聚类器。此外,本发明专利技术利用获取到的多语言聚类结果表示来替换句子中关键组成部分的表示,以达到给训练语料中注入多语言知识的目的。本发明专利技术在三类零样本自然语言理解任务(序列分类、信息抽取、问答)上获得良好的效果,证明了算法的有效性。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,涉及到一种数据增强多语言算法,具体是一种基于无监督伪语义数据增强的零样本多语言理解算法


技术介绍

1、多语言表示学习在自然语言理解任务中利用资源丰富的语言信息去提升资源匮乏语言表示的准确性,并在下游任务上进行实验验证,如文本分类、情感分析、信息抽取、问答等。现有的多语言工作依靠有监督的平行语料和浅层无监督数据增强机制,显式地在多语言之间分享语义信息。这些数据增强方法可被分为两大类一类是平行语料数据增强,一类是无监督浅层数据增强。

2、a.平行语料数据增强工作利用双语词典和翻译工具等将不同语言之间语义进行对齐,但这些语料耗费时间和依赖人工标注。

3、b.无监督浅层数据增强工作利用无监督eda操作(回译、随机删除、随机替换等)来为训练数据引入大量上下文语义信息。

4、然而这些方法都仅仅关注字符串表面信息去对齐多语言间的数据,没有考虑到深层的句子上下文内在表示。如图1所示。

5、相关现有技术:

6、a.多语言预训练模型

7、现有多语言预训练模型分为两大类:<本文档来自技高网...

【技术保护点】

1.一种基于无监督伪语义数据增强的零样本多语言理解算法,其特征在于,具体步骤如下:

【技术特征摘要】

1.一种基于无监督伪语义数据增强的零样本多...

【专利技术属性】
技术研发人员:李东阳张涛林汪诚愚何晓丰
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1