当前位置: 首页 > 专利查询>清华大学专利>正文

双语词典构建方法和设备技术

技术编号:16500028 阅读:280 留言:0更新日期:2017-11-04 11:20
本发明专利技术提供双语词典构建方法和设备用于解决如何不依赖于种子双语词典的自动构建双语词典的问题。其中双语词典构建方法,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。本发明专利技术从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。

Construction method and equipment of bilingual dictionary

The invention provides a bilingual dictionary construction method and equipment for solving the problem of automatically constructing bilingual dictionaries without relying on seed bilingual dictionaries. The bilingual dictionary construction method, comprising the steps of: S101, a input language monolingual corpus A, and B B language input monolingual corpus, respectively monolingual corpus A and monolingual corpus in B word for word vector mapping; word vector S102, A training to obtain monolingual corpus word vectors and monolingual corpus B; S103, according to the mapping relation between the construction of bilingual dictionary. The monolingual word vector from monolingual corpus on the training of the neural network model was constructed by composition of the generator and the discriminator, the loss function and the design of appropriate technology training, directly between the two language word vector mapping, thus creating a bilingual dictionary, which does not depend on the bilingual dictionary to seed.

【技术实现步骤摘要】
双语词典构建方法和设备
本专利技术涉及计算机语料处理技术,具体涉及双语词典构建方法和设备。
技术介绍
伴随着全球化的进行,国际交流日渐频繁,人们开始需要越来越多种语言的翻译。然而,对于许多小语种而言,不仅翻译人才匮乏,自动的机器翻译性能也很差。此时,双语词典显得尤为重要,既能直接为人所用,又能帮助提升机器翻译的效果。对于语言资源匮乏的小语种而言,最为丰富语言资源是单语语料。因此,使用这类语料自动构建双语词典将是最实用的。然而,已有的自动构建双语词典的技术普遍依赖一个种子双语词典,仍然对跨语言资源提出了需求。而构建种子双语词典,需要消耗大量的人力和时间。因此继急需提供一种不依赖于种子双语词典的自动构建双语词典的方法。
技术实现思路
鉴于上述问题,本专利技术提出了克服上述问题或者至少部分地解决上述问题的双语词典构建方法和设备。为此目的,第一方面,本专利技术提出一种双语词典构建方法,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系,根据本文档来自技高网...
双语词典构建方法和设备

【技术保护点】
双语词典构建方法,其特征在于,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。

【技术特征摘要】
1.双语词典构建方法,其特征在于,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。2.根据权利要求1所述的方法,其特征在于,所述S102训练获得单语语料A的词向量与单语语料B的词向量的映射关系,包括:S1021、初始化单隐层的前馈神经网络作为鉴别器D,初始化线性映射G∈R^(d×d)作为生成器;S1022、使用下列鉴别器的损失函数LD和生成器的损失函数LG训练生成器G和鉴别器D,直至损失函数LG达到...

【专利技术属性】
技术研发人员:孙茂松张檬刘洋栾焕博
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1