机器翻译模型的获取方法及装置制造方法及图纸

技术编号:15437232 阅读:76 留言:0更新日期:2017-05-25 19:24
本发明专利技术提供一种机器翻译模型的获取方法及装置。本发明专利技术的机器翻译模型的获取方法包括获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本;根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语;第一语言词典包括多个第一语言短语,第二语言词典包括多个第二语言短语;采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练,得到机器翻译模型。本发明专利技术的机器翻译模型的获取方法及装置,使得获取的机器翻译模型在机器翻译的应用过程中,机器翻译速度和精度得到了提高。

Method and device for obtaining Machine Translation model

The invention provides a method and a device for obtaining a Machine Translation model. Method for acquiring Machine Translation model of the present invention includes obtaining a plurality of bilingual sentence of the text, the text includes the first bilingual sentence of text and language and first language text the same second text; according to the first language dictionary, word segmentation of first language text, the first word segmentation, according to the second language dictionary, word segmentation in second language text second words segmentation; first language dictionary includes a plurality of first language phrases, second language dictionary includes second language phrases; parallel corpus using unsupervised learning methods for the first second words and word segmentation of words which were trained by Machine Translation model. The method and the device for obtaining the Machine Translation model of the invention enable the speed and the accuracy of the Machine Translation to be improved when the obtained Machine Translation model is applied in the Machine Translation.

【技术实现步骤摘要】
机器翻译模型的获取方法及装置
本专利技术实施例涉及语言处理技术,尤其涉及一种机器翻译模型的获取方法及装置。
技术介绍
机器翻译是自然语言处理的重要分支之一,其目的是借助计算机将文字或者语言从一种自然语言翻译成另外一种自然语言,例如将中文翻译成英文。随着计算机计算能力和存储能力的不断提升,机器翻译方法中统计方法开始发展,统计方法的基本思想是通过大量的平行语料进行统计分析,构建机器翻译模型,并使用该模型结合语言模型来进行翻译。现有技术中通过统计方法获取机器翻译模型的方法,一般是对双语句对文本进行分词,其中,双语句对文本即为源语言文本和目标语言文本,例如源语言文本是中文文本,目标语言文本是与该中文文本语义对应的英文文本。根据源语言文本和目标语言文本各自对应的词典,对该源语言文本和目标语言文本分别进行分词,得到平行语料,也就是训练词语,对平行语料进行训练得到机器翻译模型。现有技术分词方法中采用的分词词典没有考虑双语句对文本之间的语义对应关系,比如对于双语句对为中文文本和英文文本的情况,其中,对于英文文本的分词,由于没有考虑与中文文本中汉字的语义关系,分词结果往往是以单个单词的形式存在,忽略了与中文文本中的汉字对应关系更好、语义更丰富的英文短语,造成了采用上述方法得到的机器翻译模型在机器翻译的应用过程中,机器翻译速度较慢且准确度不高的问题。
技术实现思路
本专利技术提供一种机器翻译模型的获取方法及装置,以克服现有技术中获取翻译模型方法得到机器翻译模型在应用过程中,使得机器翻译速度较慢且准确度不高的技术问题本专利技术提供一种机器翻译模型的获取方法,包括:获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。如上所述的方法,所述根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语之前,还包括:对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。如上所述的方法,所述对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,包括:根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;所述对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词,包括:根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。如上所述的方法,所述根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语,包括:将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。如上所述的方法,所述根据所述第一语言短语,生成第一语言词典,包括:将所述第一语言短语添加到所述第一分词词典中,得到新的第一分词词典,将所述新的第一分词词典作为所述第一语言词典;所述根据第二语言短语,生成第二语言词典,包括:将所述第二语言短语添加到所述第二分词词典中,得到新的第二分词词典,将所述新的第二分词词典作为所述第二语言词典。如上所述的方法,所述第一语言文本为亚洲语言文本,所述第一单词为单字。本专利技术还提供一种机器翻译模型的获取装置,包括:文本获取模块,所述文本获取模块用于获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;第一分词模块,所述分词模块用于,根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;机器翻译模型获取模块,所述机器翻译模型获取模块用于采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。如上所述的装置,所述装置还包括:第二分词模块,所述第二分词模块用于对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;短语构建模块,所述短语构建模块用于根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;词典生成模块,所述词典生成模块用于根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。如上所述的装置,所述第二分词模块具体用于:根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。如上所述的装置,所述短语构建模块具体用于:将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。本专利技术提供一种机器翻译模型的获取方法及装置。本专利技术的机器翻译模型的获取方法包括获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本,第一语言文本与第二语言文本属于不同的语言;根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语;其中,第一分词词语包括至少一个第一单词,第二分词词语包括至少一个第二单词;第一语言词典包括多个第一语言短语,第一语言短语包括多个第一单词,第二语言词典包括多个第二语言短语,第二语言短语包括多个第二单词;采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用机器翻译模型进行第一本文档来自技高网...
机器翻译模型的获取方法及装置

【技术保护点】
一种机器翻译模型的获取方法,其特征在于,包括:获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。

【技术特征摘要】
1.一种机器翻译模型的获取方法,其特征在于,包括:获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。2.根据权利要求1所述的方法,其特征在于,所述根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语之前,还包括:对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。3.根据权利要求2所述的方法,其特征在于,所述对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,包括:根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;所述对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词,包括:根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语,包括:将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语言短语,生成第一语言词典,包括:将所述第一语言短语添加到所述第一分词词典中,得到新的第一分词词典,将所述新的第一分词词...

【专利技术属性】
技术研发人员:田亮
申请(专利权)人:新译信息科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1