【技术实现步骤摘要】
一种基于轴心词加权检索标准的双语词汇映射学习方法
[0001]本专利技术涉及无监督词翻译
,具体为一种基于轴心词加权检索标准的双语词汇映射学习方法。
技术介绍
[0002]多语言词向量近年来获得了快速发展。而在各种多语言词向量的生成方法中,offline mapping(线下匹配)方法尤其受到关注。这种方法可以对齐两种单语言词向量,而这些单语言词向量可以单独地进行线下训练和生成。因此,这种基于offline mapping的方法不需要或者仅需要少量的目标训练词典则可实现对齐。在以上的无监督多语言词向量生成方法中,一个关键点是双语词典的映射学习。由于没有或者仅有少量的目标训练词典,如何在已经初步对齐的多语言词向量基础上归纳出优质的双语词典,将会反过来影响多语言词向量的质量。
[0003]Conneau等人在2017年提出一种基于生成对抗网络的无监督多语言词向量对齐框架MUSE(Multilingual Unsupervised and Supervised Embedding)。他们对齐的思路是:寻找一个正交变换 ...
【技术保护点】
【技术特征摘要】
1.一种基于轴心词加权检索标准的双语词汇映射学习方法,其特征在于,包括以下步骤:S1:初始化t=0,设置迭代次数T,设置超参数μ和k;S2:设置成绩数组R={};S3:对于所有来自词典L
x
和L
y
的候选词对l
x
和l
y
,根据词典获得对应的词向量x和y;S4:当t=0时,PCSLS0=PCSLS(xW,y);S5:当t≠0时,PCSLSt=μ
×
PCSLS(xW,y)+(1
‑
μ)
×
PCSLSt;S6:追加候选词对Lx和Ly的PCSLS成绩PCSLSt到数组R中;S7:所述步骤S3、S4、S5、S6步骤重复计算,直到所有的候选词的PCSLS成绩计算完毕;S8:所述步骤S2中成绩数组R进行降序排序,获取成绩为前k的双语词典L
...
【专利技术属性】
技术研发人员:顾钊铨,梁栩健,王乐,杨举,谢禹舜,朱东,张登辉,唐可可,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。