一种待译文档的预处理方法技术

技术编号:9906921 阅读:94 留言:0更新日期:2014-04-11 05:51
本发明专利技术公开了一种待译文档的预处理方法,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小,根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。本发明专利技术通过对待译文档进行合理的预处理,将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式,使待译文档能够匹配到最适合的译员,加快翻译待译文档的速度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小,根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。本专利技术通过对待译文档进行合理的预处理,将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式,使待译文档能够匹配到最适合的译员,加快翻译待译文档的速度。【专利说明】
本专利技术涉及翻译
,具体地说,涉及。
技术介绍
在全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时随着互联网的兴起,各语种的信息量爆发性增长,各语种信息之间的转换需求也呈快速增长的态势。面对海量的多语信息转换和翻译任务,目前自翻译和小规模工作间式的翻译模式已完全无法适应。翻译作为一个产业,其规模越来越大,其作用也越来越重要,现有翻译方式仅将待译文档按照学科等粗略分类就分配个译员翻译,使的有些译员并不适合翻译该待译文档,从而使得翻译速度较慢。
技术实现思路
本专利技术所要解决的技术问题是现有的翻译模式对待译文档的预处理不合理,使得后续的翻译速度较慢。本专利技术的技术方案如下:,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小,根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。进一步:如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的实义词密度不小于实义词密度设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的实义词密度小于实义词密度设定阈值,则将所述待译文档按照所述行业类别拆分。进一步,统计所述待译文档包括的行业类别属性的数量的过程包括:去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性;统计匹配到的行业类别属性的数量。进一步,统计所述待译文档的实义词密度的过程包括:统计所述待译文档的总词汇数wordD;对所述待译文档的所有所述词汇进行词性标注,得到其中的实义词,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词;根据同义词本体工具得到所述待译文档的第i个实义词的义项数Hieaningsi ;统计所述待译文档的所述实义词的义项总数;按照【权利要求】1.,其特征在于,包括: 统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度; 分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小,根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。2.如权利要求1所述的待译文档的预处理方法,其特征在于: 如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分; 如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的实义词密度不小于实义词密度设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分; 如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的实义词密度小于实义词密度设定阈值,则将所述待译文档按照所述行业类别拆分。3.如权利要求1或2所述的待译文档的预处理的方法,其特征在于,统计所述待译文档包括的行业类别属性的数量的过程包括: 去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性; 统计匹配到的行业类别属性的数量。4.如权利要求1或2所述的待译文档的预处理的方法,其特征在于:统计所述待译文档的实义词密度的过程包括: 统计所述待译文档的总词汇数wordD; 对所述待译文档的所有所述词汇进行词性标注,得到其中的实义词,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词; 根据同义词本体工具得到所述待译文档的第i个实义词的义项数Hieaningsi ; 统计所述待译文档的所述实义词的义项总数; 按照 5.如权利要求3所述的待译文档的预处理的方法,其特征在于:所述将所述待译文档按照所述行业类别属性拆分的过程包括: 获取所述待译文档的每个段落的所述特征词,建立所述每个段落与其包含的各个所述特征词的对应关系;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,将每个所述特征词或者由多个所述特征词构成的所述特征词串匹配的术语的行业类别属性,作为所述特征词或者由多个所述特征词构成的所述特征词串所对应的所述每个段落所归属的行业类别属性;根据所述对应关系,确定所述每个段落包含相同的最多的行业类别属性; 按照所述最多的行业类别属性对每个所述段落分类; 合并同类的所述段落,得到按照行业类别属性拆分后的待译文档。6.如权利要求4所述的待译文档的预处理的方法,其特征在于:所述将所述待译文档按照所述翻译难度系数拆分的过程包括: 按照所述待译文档的每个段落的词汇等级grade_WOrd、类符形符比STTR和实义词密度density_notional计算所述待译文档的每个段落的词汇复杂度;diff_word=Kn.grade_word+K12.STTR+K13.density_notional,其中,K11 >K12 和 K13 为词汇复杂度调节系数; 计算所述待译文档的每个段落的语句复杂度diff_sentence ; 根据所述词汇复杂度和所述语句复杂度按照(Iiff^doc=K1.diff_word+K2.diff_sentence得到所述待译文档的每个段落的翻译难度系数difT_doc,其中,K1和K2为翻译难度调节系数; 合并具有相同所述翻译难度系数的段落,得到按照所述翻译难度系数拆分后的待译文档。7.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述按照所述待译文档的每个段落的词汇等级grade_word计算的过程包括: 统计所述待译文档的每个段落的总词汇数word ; 将得到的每个词汇在本文档来自技高网...

【技术保护点】
一种待译文档的预处理方法,其特征在于,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小,根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。

【技术特征摘要】

【专利技术属性】
技术研发人员:江潮
申请(专利权)人:传神联合北京信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1