【技术实现步骤摘要】
本专利技术属于自然语言处理领域,涉及到一种数据增强多语言算法,具体是一种基于无监督伪语义数据增强的零样本多语言理解算法。
技术介绍
1、多语言表示学习在自然语言理解任务中利用资源丰富的语言信息去提升资源匮乏语言表示的准确性,并在下游任务上进行实验验证,如文本分类、情感分析、信息抽取、问答等。现有的多语言工作依靠有监督的平行语料和浅层无监督数据增强机制,显式地在多语言之间分享语义信息。这些数据增强方法可被分为两大类一类是平行语料数据增强,一类是无监督浅层数据增强。
2、a.平行语料数据增强工作利用双语词典和翻译工具等将不同语言之间语义进行对齐,但这些语料耗费时间和依赖人工标注。
3、b.无监督浅层数据增强工作利用无监督eda操作(回译、随机删除、随机替换等)来为训练数据引入大量上下文语义信息。
4、然而这些方法都仅仅关注字符串表面信息去对齐多语言间的数据,没有考虑到深层的句子上下文内在表示。如图1所示。
5、相关现有技术:
6、a.多语言预训练模型
7、现有多语言预训
...【技术保护点】
1.一种基于无监督伪语义数据增强的零样本多语言理解算法,其特征在于,具体步骤如下:
【技术特征摘要】
1.一种基于无监督伪语义数据增强的零样本多...
【专利技术属性】
技术研发人员:李东阳,张涛林,汪诚愚,何晓丰,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。