当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于轴心词加权检索标准的双语词汇映射学习方法技术

技术编号:36022490 阅读:40 留言:0更新日期:2022-12-21 10:18
本发明专利技术涉及无监督词翻译技术领域,公开了一种基于轴心词加权检索标准的双语词汇映射学习方法,包括以下步骤:初始化t=0,设置迭代次数T,设置超参数μ和k,设置成绩数组R={},对于所有来自词典L

【技术实现步骤摘要】
一种基于轴心词加权检索标准的双语词汇映射学习方法


[0001]本专利技术涉及无监督词翻译
,具体为一种基于轴心词加权检索标准的双语词汇映射学习方法。

技术介绍

[0002]多语言词向量近年来获得了快速发展。而在各种多语言词向量的生成方法中,offline mapping(线下匹配)方法尤其受到关注。这种方法可以对齐两种单语言词向量,而这些单语言词向量可以单独地进行线下训练和生成。因此,这种基于offline mapping的方法不需要或者仅需要少量的目标训练词典则可实现对齐。在以上的无监督多语言词向量生成方法中,一个关键点是双语词典的映射学习。由于没有或者仅有少量的目标训练词典,如何在已经初步对齐的多语言词向量基础上归纳出优质的双语词典,将会反过来影响多语言词向量的质量。
[0003]Conneau等人在2017年提出一种基于生成对抗网络的无监督多语言词向量对齐框架MUSE(Multilingual Unsupervised and Supervised Embedding)。他们对齐的思路是:寻找一个正交变换矩阵W,使得两种语言本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于轴心词加权检索标准的双语词汇映射学习方法,其特征在于,包括以下步骤:S1:初始化t=0,设置迭代次数T,设置超参数μ和k;S2:设置成绩数组R={};S3:对于所有来自词典L
x
和L
y
的候选词对l
x
和l
y
,根据词典获得对应的词向量x和y;S4:当t=0时,PCSLS0=PCSLS(xW,y);S5:当t≠0时,PCSLSt=μ
×
PCSLS(xW,y)+(1

μ)
×
PCSLSt;S6:追加候选词对Lx和Ly的PCSLS成绩PCSLSt到数组R中;S7:所述步骤S3、S4、S5、S6步骤重复计算,直到所有的候选词的PCSLS成绩计算完毕;S8:所述步骤S2中成绩数组R进行降序排序,获取成绩为前k的双语词典L
...

【专利技术属性】
技术研发人员:顾钊铨梁栩健王乐杨举谢禹舜朱东张登辉唐可可
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1