一种日期时间自动翻译控制方法技术

技术编号:15639293 阅读:68 留言:0更新日期:2017-06-15 22:37
本发明专利技术公开了一种日期时间自动翻译控制方法,所述控制方法采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的英文句子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。本发明专利技术可以解决传统的统计机器翻译对部分具有很强规律性的翻译内容容易翻译错误的问题,并优化了整体翻译的过程;使得英文到中文的翻译质量整体有一定的提升;结合了一个小型的规则翻译系统,在不影响整体翻译速度情况下,确保了在规则覆盖范围内的英文原文都能正确翻译出来。

【技术实现步骤摘要】
一种日期时间自动翻译控制方法
本专利技术属于机器翻译
,尤其涉及一种日期时间自动翻译控制方法。
技术介绍
在传统的统计机器翻译中,语料库是决定翻译质量的最重要的部分,往往决定了一个机器翻译系统翻译能力的好坏。对于某些特殊的具有规律性的翻译内容例如时间、数字、日期,货币等,由于有各种各样的形式变化,数字范围也是无限的,语料库往往很难全部覆盖到所有情况,无法做到较高的准确性。对于现有的机器翻译系统,例如百度翻译系统翻译Thereare7bnpeopleintheearth.百度机器翻译无法正确的翻译出7bn为70亿。传统统计机器翻译中存在的一些具有规律性的文本容易翻译错误的问题。
技术实现思路
本专利技术的目的在于提供一种日期时间自动翻译控制方法,旨在解决传统统计机器翻译中存在的一些具有规律性的文本容易翻译错误的问题。本专利技术是这样实现的,一种日期时间自动翻译控制方法,所述日期时间自动翻译控制方法采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的英文句子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。进一步,所述日期时间自动翻译控制方法包括以下步骤:步骤一,预处理:对源语进行标点符号前添加空格、单词词形变化处理,缩略语处理等,如105bn需要变换成105billion;步骤二,查词典和分词:采用最大匹配的分词方法,从左到右扫描整个句子,依据分词词典,找出句子中存在于分词词典中的所有最长短语。假设句子中存在GreenwichMeanTime,而分词词典中也存在词条GreenwichMeanTime\N\格林威治标准时间,则将句子中的该词条查找出来,并标注上时间名词属性。步骤三,日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;步骤四,转换生成:对每条规则,都要给出翻译模式,以进行转换生成译文。进一步,所述相应规则包括::(0)DAY[1]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT[0,DATE,1];(0)CAT[N]&&MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT[0,DATE,1]。进一步,步骤三中,需要定义很多函数,比如数字范围函数,年、月、日的函数,如日函数DAY,范围为数字1-31,或者1st-31st,月函数MONTH,为January到December,以及它们缩写词,年函数YEAR,范围一般取1200-2500之间的数字。然后根据英语日期写法,来定义规则,如英语有下列几种:January2,20162January,2016则定义规则:(0)MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1](0)DAY[1]+(1)MONTH[1]+(2)CHI[,]+(3)YEAR[1]可以匹配上述两种情况。本专利技术的另一目的在于提供一种所述日期时间自动翻译控制方法的日期时间自动翻译控制系统,所述日期时间自动翻译控制系统包括:预处理模块,预处理模块,用于对源语进行预处理,包括对源语进行标点符号前添加空格、单词词形变化处理,缩略语处理;查词典和分词模块,用于采用最大匹配法,从左到右扫描整个句子,依据分词词典,找出句子中存在于分词词典中的所有最长短语;日期时间类规则及其匹配模块,用于穷举实际语言中可能出现的各种形式的日期和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;转换生成模块,用于对每条规则,给出翻译模式,以进行转换生成译文。本专利技术的另一目的在于提供一种利用所述日期时间自动翻译控制方法的机器翻译系统。本专利技术提供的日期时间自动翻译控制方法,为了提高此类具有很强规律性的翻译内容,采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的英文句子,本专利技术自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用传统的统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。本专利技术可以解决传统的统计机器翻译对部分具有很强规律性的翻译内容容易翻译错误的问题,并优化了整体翻译的过程;使得英文到中文的数字,日期等内容的翻译更加准确,在对比的机器评测中BLEU值提高了0.3分(满分100分),在对比的人工评测中提高了0.12分(满分4分);结合了一个小型的规则翻译系统,在不影响整体翻译速度情况下,确保了在规则覆盖范围内的英文原文都能正确翻译出来。本专利技术解决了传统统计机器翻译中存在的一些具有规律性的文本容易翻译错误的问题,合理的运用了规则系统识别和翻译这些内容,这些内容包含数字、日期、货币和时间;例如百度翻译会将Jul3rd,Iwenttohome.翻译成:3月,我去了家。语料库中不存在这样的表述方法,所以无法正确的将Jul3rd翻译成7月3日,而使用本专利技术方法后,将不会出现这类翻译问题。附图说明图1是本专利技术实施例提供的日期时间自动翻译控制方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。如图1所示,本专利技术实施例提供的日期时间自动翻译控制方法包括以下步骤:S101:预处理:对源语进行预处理,包括对源语进行标点符号前添加空格、单词词形变化处理,缩略语处理等,如105bn需要变换成105billion。S102:查词典和分词:采用最大匹配法,采用最大匹配的分词方法,从左到右扫描整个句子,依据分词词典,找出句子中存在于分词词典中的所有最长短语,如GreenwichMeanTime\N\格林威治标准时间。S103:日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;S104:转换生成:对每条规则,都要给出翻译模式,以进行转换生成译文。进一步,S102中,假设句子中存在GreenwichMeanTime,而分词词典中也存在词条GreenwichMeanTime\N\格林威治标准时间,则将句子中的该词条查找出来,并标注上时间名词属性。进一步,S103中,具体包括:需要定义很多函数,比如数字范围函数,年、月、日的函数,如日函数DAY,范围为数字1-31,或者1st-31st,月函数MONTH,为January到December,以及它们缩写词,年函数YEAR,范围一般取1200-2500之间的数字。然后根据英语日期写法,来定义规则,如英语有下列几种:January2,20162January,2016则定义规则:(0)MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1](0)DAY[1]+(1)MONTH[1]+(2)CHI[,]+(3)YEAR[1]可以本文档来自技高网...
一种日期时间自动翻译控制方法

【技术保护点】
一种日期时间自动翻译控制方法,其特征在于,所述日期时间自动翻译控制方法采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的英文句子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。

【技术特征摘要】
1.一种日期时间自动翻译控制方法,其特征在于,所述日期时间自动翻译控制方法采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的英文句子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。2.如权利要求1所述的日期时间自动翻译控制方法,其特征在于,所述日期时间自动翻译控制方法包括以下步骤:步骤一,预处理:对源语进行预处理,包括对源语进行标点符号前添加空格、单词词形变化处理,缩略语处理;步骤二,查词典和分词:采用最大匹配的分词方法,从左到右扫描整个句子,依据分词词典,找出句子中存在于分词词典中的所有最长短语;步骤三,日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;步骤四,转换生成:对每条规则,给出翻译模式,以进行转换生成译文。3.如权利要求2所述的日期时间自动翻译控制方法,其特征在于,步骤三中,所述相应规则包括::(0)DAY[1]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT[0,DATE,1];(0)CAT[N]&&MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]-->...

【专利技术属性】
技术研发人员:程国艮宗浩
申请(专利权)人:中译语通科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1