一种基于英语枢轴的弱监督汉越双语词典构建方法技术

技术编号:24576569 阅读:265 留言:0更新日期:2020-06-21 00:27
本发明专利技术涉及一种基于英语枢轴的弱监督汉越双语词典构建方法,属于自然语言处理技术领域。本发明专利技术包括步骤:分别收集汉语、英语和越南语的单语语料以及对语料进行预处理;基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间;在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系;采用不同的抽取策略抽取汉‑越词典。本发明专利技术对自动构建汉‑越词典的准确率有很大提升。解决现有汉越双语词典构建方法中存在的平行语料、种子词典等非常稀缺且难以标注以及现有方法构建效果不佳的问题。

A weak supervision Chinese Vietnamese bilingual dictionary construction method based on English pivot

【技术实现步骤摘要】
一种基于英语枢轴的弱监督汉越双语词典构建方法
本专利技术涉及一种基于英语枢轴的弱监督汉越双语词典构建方法,属于跨语言自然语言处理

技术介绍
中国与沿线国家之间的交流日益频繁,跨语言交流中的语言翻译问题备受关注。作为沿线国家之一的越南与我国之间的交流越来越密切。双语词典作为跨语言自然语言处理领域的一项基础性资源,具有极其重要的研究价值。双语词典的好坏对信息检索、机器翻译、跨语言标注投射等NLP任务具有很大的影响。然而人工构建大规模的汉-越双语词典则需要精通汉语和越南语的语言专家参与且非常耗时,构建成本高,而且现有构建汉-越双语词典的方法效果不佳,且通常需要平行语料或双语词典等监督信号参与。因此,针对以上问题,提出基于英语英语枢轴自动构建汉-越双语词典方法。近几年,国内外学者对双语词典的构建方法进行了大量研究,提出了基于平行语料、基于可比语料、基于种子词典、基于对抗网络等多种双语词典构建方法。基于平行语料的方法以平行语料库作为语料资源,利用语料库中的文档对齐信息对双语词典进行提取。由于平行语料库中具有高质量的对齐信息,因此基于平行本文档来自技高网...

【技术保护点】
1.一种基于英语枢轴的弱监督汉越双语词典构建方法,其特征在于:/nStep1、分别收集汉语、英语和越南语的单语语料以及对语料进行预处理;/nStep2、基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间;/nStep3、在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系;/nStep4、采用不同的抽取策略抽取汉-越词典。/n

【技术特征摘要】
1.一种基于英语枢轴的弱监督汉越双语词典构建方法,其特征在于:
Step1、分别收集汉语、英语和越南语的单语语料以及对语料进行预处理;
Step2、基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间;
Step3、在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系;
Step4、采用不同的抽取策略抽取汉-越词典。


2.根据权利要求1所述的基于英语枢轴的弱监督汉越双语词典构建方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、利用网络爬虫爬取汉英越语料:将针对不同的网址,编写不同的网络爬虫程序,获取汉英越语料;
Step1.2、基于回译的方法扩充语料的规模:将汉英越语料分别通过谷歌翻译模型回译,回译出伪源句子,扩充语料;
Step1.3、将获取的语料进行去停用词标点操作:将针对不同语料获取不同的停用词表,以及对应的标点符号表,然后进行去停用词以及标点符号操作;
Step1.4、利用分词工具对语料进行分词操作:将中文句子通过结巴分词进行分词处理,将越南语句子以及英语句子通过空格进行分词处理。


3.根据权利要求1所述的基于英语枢轴的弱监督汉越双语词典构建方法,其特征在于:
所述步骤Step2具体步骤为:
Step2.1、将源句子与目标句子分别输入Fasttext模型中得到各自的词向量;
Step2.2、将基于种子词典的方法分别学习汉语-英语、越语-英语的映射矩阵Wxz和Wyz,将汉语词向量以及英语词向量分别对齐到英语词向量共享空间中,通过上述步骤得到汉-英词向量以及越-英词向量,分别重新定义为源词向量以及目标词向量。


4.根据权利要求1所述的基于英语枢轴的弱监督汉越双语词典构建方法,其特征在于:
所述步骤Step3中,利用英语作为英语枢轴语言获...

【专利技术属性】
技术研发人员:余正涛陈亚豪张亚飞文永华朱俊国高盛祥
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1