当前位置: 首页 > 专利查询>长安大学专利>正文

翻译中语料介入模块及方法技术

技术编号:13880422 阅读:69 留言:0更新日期:2016-10-23 03:43
本发明专利技术公开了一种翻译中语料介入模块及方法,目的在于,实现语料检索和对比,匹配上的语料可轻松介入到翻译中,从而能够缩减翻译时间,并提高翻译中表达一致性,所采用的技术方案为:利用语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;利用翻译材料读取模块打开需要翻译的材料,并对需要翻译的材料进行分句处理;语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义,并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;最后通过匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。

【技术实现步骤摘要】

本专利技术属于计算语言学和翻译
,具体涉及一种翻译中语料介入模块及方法
技术介绍
语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口语材料总集,为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。Renouf认为,语料库是“由大量收集的书面语或口语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf,1987:1)。Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须反洗足量的自然英语(或其他语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。因此,就需要可靠机读的电子文本集,即可机读的语料库”(leech,1987:2)。综上所述,语料库具有以下基本特征:1)语料库的设计和建设是在系统的理论语言学原则下进行的,语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。2)语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料(naturally-occurred data)。3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库攒在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky,1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery,1996:5)。李文中认为:语料文本是一连续的文本或话语片段(running text or continuous stretches ofdiscourse),而不是鼓励的句子和词汇。在语料库研究中,对某一搜索词的语法关系、用法、以及大批的观察是通过分析提供的语境(context)进行的。目前关于语料的研究更多为理论性的,为语料翻译学的研究服务,未涉及具体的实际应用;语料库的选择为研究性语料库,大多不是具体翻译实践中能够直接采用的语料库;具体翻译实践中,语料库如何介入翻译,或者说语料库如何形成对翻译的帮助,都没有具体提及。目前在翻译行业中,没有一种比较成熟的术语介入工具,通常为人工参考,效率较低。
技术实现思路
为了解决现有技术中的问题,本专利技术提出一种翻译时能够实现语料检索和对比,匹配上的语料可轻松介入到翻译中,从而能够缩减翻译时间,并提高翻译中表达一致性的翻译中语料介入模块及方法。为了实现以上目的,本专利技术所采用的技术方案为:一种翻译中语料介入模块,包括:语料读取模块:用于选择性读取历史语料库和为翻译活动备制的语料库;翻译材料读取模块:用于打开需要翻译的材料,读取所述需要翻译的材料,并对所述需要翻译的材料进行分句处理;语料和翻译材料检索匹配模块:用于对读取并经过分句处理的所述需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;匹配语料显示模块:用于将匹配的语料和语料的译文区别显示出来;匹配语料介入翻译模块:用于对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。一种翻译中语料介入方法,包括以下步骤:1)翻译材料读取模块打开需要翻译的材料,读取需要翻译的材料,并对需要翻译的材料进行分句处理,同时语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;2)语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;3)匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现翻译中的语料介入。所述的步骤1)中翻译材料读取模块对写字板、Word文档调用Word的Com接口获取word中的文本;对excel文档调用excel的Com接口获取excel表格中的文本。所述的步骤1)中翻译材料读取模块根据标点符号规则,定义句子终止符,将需要翻译的材料切分为句子,遇到终止符判断为句尾。所述的翻译材料读取模块需要对英文句号判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符。所述的步骤1)中语料读取模块对历史语料库和为翻译活动备制的语料库中读取的语料以列表形式保存,并对语料按字母顺序排序。所述的步骤2)中语料和翻译材料检索匹配模块对需要翻译的材料的匹配的具体步骤包括:2.1)取一个单词到单词组,语料列表搜索单词组;2.2)如果搜索到一个全匹配的语料,则保存语料的信息;继续转到步骤2.1)搜索更大的匹配;2.3)如果搜索到一个子匹配,即单词组是语料的一部分,则转到步骤2.1)继续搜索;2.4)如未搜索到匹配,则清空单词组,从最后一个匹配的单词组后开始转到步骤2.1),直至所有的翻译材料搜索完毕。所述的步骤2)中匹配语料显示模块通过悬浮窗口或符号标注形式显示标定的匹配语料的译文,且该译文能够编辑。与现有技术相比,本专利技术利用语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;利用翻译材料读取模块打开需要翻译的材料,读取需要翻译的材料,并对需要翻译的材料进行分句处理;语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义,并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;最后通过匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。翻译时能够实现语料检索和对比,匹配上的语料可轻松介入到翻译中,从而能够缩减翻译时间,并提高翻译中表达一致性。进一步,翻译材料读取模块根据标点符号规则,定义句子终止符,将需要翻译的材料切分为句子,遇到终止符判断为句尾,对于英文句号需要判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符,进一步提高了翻译材料读取模块对分句处理的准确性,提高了翻译效率。进一步,语料读取模块可选择性读取历史语料库和专为本次翻译活动备制的语料库,也可以读取为本次翻译活动备制的语料库为主,将历史语料库作为辅助参考读取,读取的语料以列表保存,并对语料按字母顺序排序,能够语料匹配搜索时的效率,从而能够缩减翻译时间。进一步,语料和翻译材料本文档来自技高网
...

【技术保护点】
一种翻译中语料介入模块,其特征在于,包括:语料读取模块:用于选择性读取历史语料库和为翻译活动备制的语料库;翻译材料读取模块:用于打开需要翻译的材料,读取所述需要翻译的材料,并对所述需要翻译的材料进行分句处理;语料和翻译材料检索匹配模块:用于对读取并经过分句处理的所述需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;匹配语料显示模块:用于将匹配的语料和语料的译文区别显示出来;匹配语料介入翻译模块:用于对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。

【技术特征摘要】
1.一种翻译中语料介入模块,其特征在于,包括:语料读取模块:用于选择性读取历史语料库和为翻译活动备制的语料库;翻译材料读取模块:用于打开需要翻译的材料,读取所述需要翻译的材料,并对所述需要翻译的材料进行分句处理;语料和翻译材料检索匹配模块:用于对读取并经过分句处理的所述需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;匹配语料显示模块:用于将匹配的语料和语料的译文区别显示出来;匹配语料介入翻译模块:用于对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。2.一种翻译中语料介入方法,其特征在于,包括以下步骤:1)翻译材料读取模块打开需要翻译的材料,读取需要翻译的材料,并对需要翻译的材料进行分句处理,同时语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;2)语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;3)匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现翻译中的语料介入。3.根据权利要求2所述的一种翻译中语料介入方法,其特征在于,所述的步骤1)中翻译材料读取模块对写字板、Word文档调用Word的Com接口获取word中的文本;对excel文档调用excel的C...

【专利技术属性】
技术研发人员:白晓文陈春纬刘庆
申请(专利权)人:长安大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1