按文档的字符属性碎片化的方法技术

技术编号:9990991 阅读:74 留言:0更新日期:2014-05-02 04:24
本发明专利技术公开了一种按文档的字符属性碎片化的方法,包括:确定分词处理后的各个文档的所有词汇和所有语句的字符属性;根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;根据匹配后的级别标识赋予相应的所述文档;合并级别标识相同的文档。本发明专利技术通过提供一种按文档的字符属性碎片化的方法,将不同难度级别的翻译碎片,分配给合适的译员,能够最有效的促进分工,极大的提高单位翻译产能。

【技术实现步骤摘要】
按文档的字符属性碎片化的方法
本专利技术属于自然语言处理
,尤其涉及一种按文档的字符属性碎片化的方法。
技术介绍
在这个全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时随着互联网的兴起,各语种的信息量爆发性的增长,各语种信息之间的转换需求也呈快速爆发性增长的态势。目前最常用的碎片化方法,是按固定字数或按自然段落进行碎片化,这种方法快速易行,不需花费很多的计算资源,即可完成,在一些对语种和分类要求不是很强烈的应用场景不失为一种很好的碎片化方法;按语种进行碎片化的方法,该方法应用于对翻译方向要求很明确的场合,对于给定的翻译文档,判断出其中每一种文字,最大化的截取并组合之;按任务标题进行碎片化的方法,是通过对任务标题进行分词,并判断其所属的类别,从而对任务所属类别进行判断,这是一种简单的按类别进行碎片化的方法。面对海量的多语信息转换和翻译任务,目前自翻译的模式或小规模工作间式的翻译模式已完全无法适应,采用普通的任务平均分配和流水作业的方法,不能将合适的翻译任务分配给合适的译员,以致效率很低而且无法利用信息化平台进行自动化的高效处理。
技术实现思路
有鉴于此,本专利技术的目的是提出一种按文档的字符属性碎片化的方法,以解决如何将最合适的翻译任务分配给最合适的译员的问题和能够在大规模并行分布处理的云翻译平台上对所输入的多语信息标准化和可度量化的要求。本专利技术公开了一种译稿按难度等级碎片化的方法,包括:确定分词处理后的各个文档的所有词汇和所有语句的字符属性;根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;根据匹配后的级别标识赋予相应的所述文档;合并级别标识相同的文档。在一些可选的实施例中,所述确定分词处理后的各个文档的所有词汇的字符属性的过程包括:确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional,得到所述词汇的字符属性,记为词汇复杂度diff_word,diff_word=K11·grade_word+K12·STTR+K13·density_notional其中,K11、K12、K13为通过给定样本所计算出的词汇复杂度调节系数。在一些可选的实施例中,确定所述词汇等级difdiff_word的过程包括:将所述所有词汇与其所属语种的词汇分级表中进行匹配,得到所述所有词汇的等级,分别为一级、二级和三级,未出现在这3个级别中的词汇为四级;统计二级和二级以上的词汇数量和所述文档的总词汇数;计算得到如下词汇等级difdiff_word,其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为所述文档的总词汇数量,K111、K112、K113为通过给定样本所计算出的词汇等级调节系数。在一些可选的实施例中,确定所述类符形符比的过程包括:统计所述文档的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述类符形符比;若所述形符大于等于标准数量,则将所述文档划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;按照类符形符比计算公式,计算得到所述类符形符比,所述类符形符比计算公式如下:其中,token为所述不足标准数量的的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。在一些可选的实施例中,确定所述实义词词义密度的过程包括:对所有词汇进行词汇标注,得到所述文档的实义词,所述实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;统计所述文档中的所述所有词汇中的实义词的数量;统计每个实义词的义项数;根据所述每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;根据实义词实义密度计算公式,计算得到实义词词义密度,所述实义词实义密度计算公式如下:其中,count_notional为所述实义词的数量,meaningsi(1≤i≤count_notional)为第i个实义词的义项数。在一些可选的实施例中,所述确定分词处理后的各个文档的所有语句的字符属性的过程包括:统计所述文档中的整句数,计算得到平均整句长度MLS;统计所述文档中的子句数,确定平均子句长度MLC;统计所述文档中的长句数以及每个长句的长度即该长句的词汇数,确定平均长句长度MLL;统计所述文档中的每个长句的子句数,确定长句中平均子句长度MLCL;根据所述的平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句中平均子句长度MLCL,得到所述语句的字符属性,记为语句复杂度diff_sentence,diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL其中,K21、K22、K23、K24为通过给定样本所计算出的语句复杂度调节系数。在一些可选的实施例中,所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、和长句中平均子句长度MLCL分别通过如下方式得到,MLS=word/count_sentence;MLC=word/count_clause;其中,count_sentence为所述文档中的整句数,count_clause为所述文档中的子句数,count_long为所述文档中的长句数,count_clause_long为所述文档中的长句的所有子句数,word为总词汇数,word_longi为每个所述长句的长度,i为所述长句的序号。在一些可选的实施例中,所述根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配的过程包括:根据所述的词汇的字符属性和语句的字符属性,确定文档的翻译难度系数diff_doc按照diff_doc=K1·diff_word+K2·diff_sentence得到;其中,K1、K2为通过给定样本计算出的翻译难度调节系数。在一些可选的实施例中,根据所述翻译难度的系数,将相同所述翻译难度系数的文档碎片划分为级别标识相同的文档,统计并合并所述级别标识相同的文档,得到划分好的碎片。本专利技术通过计算词汇复杂度和语句复杂度,最终计算得到文档翻译难度,将相同翻译难度等级的文档碎片,分配给最合适的译员,提高了翻译的准确性和翻译的效率,能够最有效的促进分工,极大的提高了单位翻译产能。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出一些说明性实施例中的流程图。具体实施方式以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。如图1所示,为本专利技术的按文档的字符属性碎片化方法的流程图。该方法的具体步骤如下:S11、确定分词处理后的各个文档的所有词汇和所有语句的字符属性;S12、根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;S13、根据匹配后的级别标识赋予相应的所述文档;S14、合并级别标识相同的文档。基于上述本文档来自技高网...
按文档的字符属性碎片化的方法

【技术保护点】

【技术特征摘要】
1.一种按文档的字符属性碎片化的方法,其特征在于包括:确定分词处理后的各个文档的所有词汇和所有语句的字符属性;根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;根据匹配后的级别标识赋予相应的所述文档;合并级别标识相同的文档;所述确定分词处理后的各个文档的所有词汇的字符属性的过程包括:确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional,得到所述词汇的字符属性,记为词汇复杂度diff_word,diff_word=K11·grade_word+K12·STTR+K13·density_notional其中,K11、K12、K13为通过给定样本所计算出的词汇复杂度调节系数;确定所述类符形符比的过程包括:统计所述文档的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述类符形符比;若所述形符大于等于标准数量,则将所述文档划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;按照类符形符比计算公式,计算得到所述类符形符比,所述类符形符比计算公式如下:其中,token为所述不足标准数量的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。2.根据权利要求1所述的方法,其特征在于,确定所述词汇等级grade_word的过程包括:将所述词汇与其所属语种的词汇分级表进行匹配,得到所述所有词汇的等级,分别为一级、二级和三级,未出现在这3个级别中的词汇为四级;统计二级和二级以上的词汇数量和所述文档的总词汇数;计算得到如下词汇等级grade_word,其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为所述文档的总词汇数量,K111、K112、K113为通过给定样本所计算出的词汇等级调节系数。3.根据权利要求1所述的方法,其特征在于,确定所述实义词词义密度的过程包括:对所有词汇进行词汇标注,得到所述文档的实义词,所述实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;统计所述文档中的所述所有词汇中的实义词的数量;统计每个实义词的义项数;根据所述每个实义词的义项数,将每个实义词的义项数相...

【专利技术属性】
技术研发人员:江潮
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1