当前位置: 首页 > 专利查询>谷歌公司专利>正文

机器翻译中的大语言模型制造技术

技术编号:4597008 阅读:221 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了用于机器翻译的系统、方法和计算机程序产品。在一些实现中,提供了一种系统。该系统包括语言模型,该语言模型包括:来自语料库的n-gram的集合,每个n-gram具有在语料库中的对应的相对频率和与在n-gram中的符号的数量对应的级n,每个n-gram与具有n-1的级的回退n-gram对应;和回退分值的集合,每个回退分值与n-gram相关联,该回退分值被确定为回退因子和在语料库中对应的回退n-gram的相对频率的函数。

【技术实现步骤摘要】
【国外来华专利技术】
该说明书涉及统计机器翻译。
技术介绍
由人类操作员进行的对文本的人工翻译可能费时且费钱。机器翻译的一个目标是自动地将源语言的文本翻译为目标语言的对应文本。机器翻译具有若干不同的方法,包括基于示例的机器翻译和统计机器翻译。统计机器翻译试图识别对于源语言的特定输入的目标语言的最可能翻译。例如,当将句子从法语翻译为英语时,统计机器翻译识别对法语句子的最可能英语句子。该最大可能翻译可以被写为「 , arg max尸(e | /) to 、 i 其描述了在所有可能的句子中的提供了关于P(elf)的最高值的英语句子e。此外,贝斯法则规定 (e)尸(/(e)利用贝斯法则,该最可能的句子可以被重写为arg max P(e | /) = arg max P(e)尸(/1 e)因此,最可能的e(即,最可能的英语翻译)是使e发生的概率和e将被翻译成f的概率(即,给定的英语句子被翻译成法语句子的概率)的乘积最大化的英语翻译。
技术实现思路
提供了用于机器翻译的系统、方法和计算机程序产品。 一般地,在一个方面,提供了一种系统。该系统包括语言模型,该语言模型包括来自语料库的n-gram的集合,每个n-gra本文档来自技高网...

【技术保护点】
一种系统,包括:    语言模型,所述语言模型包括:    来自语料库的n-gram的集合,每个n-gram具有在所述语料库中的对应的相对频率和与在所述n-gram中的符号的数量对应的级n,每个n-gram与具有n-1的级的回退n-gram对应;和    回退分值的集合,每个回退分值与n-gram相关联,所述回退分值被确定为回退因子和在所述语料库中的对应的回退n-gram的相对频率的函数。

【技术特征摘要】
【国外来华专利技术】US 2007-3-26 60/920,283;US 2007-6-22 11/767,436一种系统,包括语言模型,所述语言模型包括来自语料库的n-gram的集合,每个n-gram具有在所述语料库中的对应的相对频率和与在所述n-gram中的符号的数量对应的级n,每个n-gram与具有n-1的级的回退n-gram对应;和回退分值的集合,每个回退分值与n-gram相关联,所述回退分值被确定为回退因子和在所述语料库中的对应的回退n-gram的相对频率的函数。2. 根据权利要求1所述的系统,其中所述回退因子包括恒定的惩罚值。3. 根据权利要求1所述的系统,其中所述回退因子取决于n-gram级。4. 根据权利要求3所述的系统,其中利用在样本数据中出现的每个级的n-gram的数量取得所述回退因子。5. 根据权利要求1所述的系统,其中利用翻译模型的区别训练取得所述回退因子。6. 根据权利要求5所述的系统,其中指标特征函数被用于识别所述回退因子。7. —种方法,包括生成语言模型,包括识别来自训练数据的语料库的n-gram的集合,所述集合的每个n-gram具有在所述语料库中出现的对应的相对频率和与在所述n-gram中的符号的数量对应的级n,每个n-gram与具有n-1的级的回退n-gram对应;禾口识别一个或多个回退因子,其中所述回退因子被用于作为回退n-gram的相对频率的函数识别关于一个或多个n-gram的回退分值。8. 根据权利要求7所述的方法,其中识别所述一个或多个回退因子包括对一组样本数据执行区别训练,所述区别训练识别最大化翻译质量的测量的关于所述一个或多个回退因子的值。9. 根据权利要求8所述的方法,其中指标特征函数被用于识别所述一个或多个回退因子。10. 根据权利要求7所述的方法,其中识别所述一个或多个回退因子包括确定关于每个n-gram级的回退因子,其中所述回退因子是从在样本数据集中的每个级的n-gram的出现数量得到的。11. 根据权利要求7所述的方法,进一步包括利用所述一个或多个回退因子计算关于n-gram的回退分值以及存储所述回退分值。12. —种计算机程序产品,编码在有形的程序载体上,可操作以使数据处理设备执行操作,所述操作包括生成语言模型,包括识别来自训练数据的语料库的n-gram的集合,所述集合的每个n-gram具有在所述语料库中出现的对应的相对频率和与在所述n-gram中的符号的数量对应的级n,每个n-gram与具有n-1的级的回退n-gram对应;禾口识别一个或多个回退因子,其中所述回退因子被用于作为回退n-gram的相对频率的函数识别关于一个或多个n-gram的回...

【专利技术属性】
技术研发人员:托尔斯滕布兰奇阿肖克C珀派特徐鹏弗朗茨约瑟夫欧池杰弗里迪安
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利