一种用于提升翻译准确性的方法、系统及装置制造方法及图纸

技术编号:30141859 阅读:14 留言:0更新日期:2021-09-23 15:06
本发明专利技术公开一种用于提升翻译准确性的方法、系统及装置,本发明专利技术通过将输入原文的单词数组与翻译记忆库存储的原文数组转换为两个数字数组,这样在逐一比较单词的时候,只需要比较数字即可,缩减了比较次数,避免了每次的字符转码,并且计算机处理数字的速度要比文本快,提升了原文内容的比较速度,进而直接提升了匹配算法的性能和计算速度,同时对于翻译记忆库里的原文,可以采用每次存储之前先按本发明专利技术转换为数字后再进行存储的办法,在下次匹配直接比较已存储好的单词数组,可以减少转换开销,进一步提升性能。进一步提升性能。进一步提升性能。

【技术实现步骤摘要】
一种用于提升翻译准确性的方法、系统及装置


[0001]本专利技术涉及智能翻译领域,具体涉及一种用于提升翻译准确性的方法、系统及装置。

技术介绍

[0002]翻译记忆库是翻译领域中比较常用到的翻译辅助软件,不断收集和存储翻译项目中已被审核的无质量缺陷的原文和译文,并且提供一种匹配算法,从存储的原文里对需要翻译的输入原文进行相似度匹配,最终返回翻译记忆库中相似度较高的一批原文以及对应的译文。由于这些译文都是经过审核的,所以可以为译员提供高质量的译法参考。
[0003]综上所述,影响一个翻译记忆库匹配性能的关键环节是原文的存储以及匹配算法。原文内容作为匹配算法的基础和依据,同时直接决定了匹配算法的计算性能,主要体现在对原文的比较速度方面。随着翻译记忆库的存储量随着翻译业务逐渐累积,系统在比较原文时的开销将随之增加,因此对原文内容的处理和数据类型的设计,是影响翻译记忆库匹配性能的重要环节。
[0004]传统的原文处理方法,是将整句原文内容按字符串类型存储到翻译记忆库中,发生匹配时,先将原文从库中取出进行分词,再将输入原文分词,将两个分词后的单词文本数组,通过匹配算法,计算出这两句原文的相似度,最终得出翻译记忆库中相似度最高的那条数据。
[0005]这种按文本进行匹配的方式,在比较原文中每个单词的时候可能会带来性能上的问题。首先计算机处理字符串的原理是先将每个字符转为ASCII码后,再逐一处理比较每个ASCII码值,这样对于一单词字符串来说,字符越多,比较的次数也就越多,如果单词个数也很多,匹配算法就可能非常慢。当翻译记忆库数据随着翻译业务的增多,参考原文数量和原文的单词个数增多,这种性能问题会更加明显。增加了译员等待参考译文的时间,降低了翻译效率。

技术实现思路

[0006]由于按文本方式匹配原文,获得对应参考译文的做法,会随着翻译记忆库内容的逐渐累加而影响计算性能,降低翻译效率,本专利技术为了解决这一技术问题,公开了一种原文处理方法,通过对原文存储方式和数据结构的优化,提升翻译记忆库的整体匹配性能;
[0007]本专利技术提供了一种用于提升翻译准确性的方法,包括以下步骤,
[0008]采集无质量缺陷的第一翻译资料的第一单词以及第一单词对应的第二单词,对第一单词、第二单词分别进行二进制转换,获得第一单词的第一数字表达式以及第二单词的第二数字表达式,其中,第一单词为第一翻译资料的原文单词,第二单词为第一翻译资料的译文单词;
[0009]采集待翻译文献资料,对待翻译文献资料进行二进制转换,获得待翻译文献资料的第三数字表达式,通过比较第三数字表达式与第一数字表达式或第二数字表达式的第一
相似度,获得待翻译文献资料的第二翻译资料。
[0010]优选地,采集第三翻译资料,对第三翻译资料进行二进制转换,获得第三翻译资料的第四数字表达式,通过比较第四数字表达式与第一数字表达式或第二数字表达式的第二相似度,获得第三翻译资料的翻译准确度,其中,第三翻译资料为已翻译好待校对的文献资料。
[0011]优选地,基于翻译准确度,获得第一单词或第二单词,并将第一单词或第二单词添加到第三翻译资料中,其中,在将第一单词或第二单词添加到第三翻译资料中的过程中,标注第一单词或第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。
[0012]优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
[0013]采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
[0014]采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
[0015]基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
[0016]采集待转化英文单词的英文单词长度;
[0017]如果英文单词长度等于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
[0018]如果英文单词长度小于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容中英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式、第二表达式、第三表达式获得数字表达式;
[0019]如果英文单词长度大于10,则将英文单词长度通过4位二进制表达,获得第四表达式,采集单词内容的每个字符的ASCII码值,通过将ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同2
60
作相除取余计算并进行60位二进制转换,获得第五表达式,根据第四表达式和第五表达式获得数字表达式。
[0020]在处理英文单词长度大于10的待转化英文单词的过程中,包括以下步骤:
[0021]S101.采集单词内容的第一字符的第一ASCII码值,通过将第一ASCII码值进行31进制转换后,与单词内容的第二字符的第二ASCII码值相加,获得第一结果;
[0022]S103.将第一结果进行31进制转换后,与单词内容的第三字符的第三ASCII码值相加,获得第二结果;
[0023]S105.基于S103的计算过程,将第二结果进行累加至单词内容的最后一个字符后,同2
60
相除取余计算并进行60位二进制转换,获得第五表达式。
[0024]优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
[0025]采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
[0026]采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
[0027]基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
[0028]采集待转化中文单词的中文单词长度;
[0029]如果中文单词长度等于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
[0030]如果中文单词长度小于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容中中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过第一表达式和第六表达式,获得数字表达式;
[0031]如果中文单词长度大于4,则将中文单词长度通过4位二进制表达,获得第七表达式,将单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同2
60
相除取余计算并进行60位二进制转换,获得第九表达式,根据第七表达式和第九表达式获得数字表达式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于提升翻译准确性的方法,其特征在于,包括以下步骤,采集无质量缺陷的第一翻译资料的第一单词以及所述第一单词对应的第二单词,对所述第一单词、所述第二单词分别进行二进制转换,获得所述第一单词的第一数字表达式以及所述第二单词的第二数字表达式,其中,所述第一单词为所述第一翻译资料的原文单词,所述第二单词为所述第一翻译资料的译文单词;采集待翻译文献资料,对所述待翻译文献资料进行二进制转换,获得所述待翻译文献资料的第三数字表达式,通过比较所述第三数字表达式与所述第一数字表达式或所述第二数字表达式的第一相似度,获得所述待翻译文献资料的第二翻译资料。2.根据权利要求1所述的一种用于提升翻译准确性的方法,其特征在于,采集第三翻译资料,对所述第三翻译资料进行二进制转换,获得所述第三翻译资料的第四数字表达式,通过比较所述第四数字表达式与所述第一数字表达式或所述第二数字表达式的第二相似度,获得所述第三翻译资料的翻译准确度,其中,所述第三翻译资料为已翻译好待校对的文献资料。3.根据权利要求2所述的一种用于提升翻译准确性的方法,其特征在于,基于所述翻译准确度,获得所述第一单词或所述第二单词,并将所述第一单词或所述第二单词添加到所述第三翻译资料中,其中,在将所述第一单词或所述第二单词添加到所述第三翻译资料中的过程中,标注所述第一单词或所述第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。4.根据权利要求3所述的一种用于提升翻译准确性的方法,其特征在于,在对所述第一单词、所述第二单词、所述待翻译文献资料、所述第三翻译资料分别进行二进制转化的过程中,采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;采集所述待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;基于所述第一表达式、所述第二表达式,构建数字表达式,其中,所述数字表达式包括所述第一数字表达式、所述第二数字表达式、所述第三数字表达式、所述第四数字表达式。5.根据权利要求4所述的一种用于提升翻译准确性的方法,其特征在于,采集待转化英文单词的英文单词长度;如果所述英文单词长度等于10,则将所述英文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容的字符进行6位二进制转换并进行累加,获得所述第二表达式,通过所述第一表达式和所述第二表示获得所述数字表达式;如果所述英文单词长度小于10,则将所述英文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将所述单词内容的所述字符进行6位二进制转换并进行累加,获得所述第二表达式,通过所述第一表达式、所述第二表达式、所述第三表达式获得所述数字表达式;如果所述英文单词长度大于10,则将所述英文单词长度通过4位二进制表达,获得第四表达式,采集所述单词内容的每个字符的ASCII码值,通过将所述ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同2
60
作相除取余计算并进行60位二进制转换,获得第五表达式,根据所述第四表达式和所述第五表达式获得所述数字表达式。6.根据权利要求5所述的一种用于提升翻译准确性的方法,其特征在于,
在处理所述英文单词长度大于10的所述待转化英文单词的过程中,包括以下步骤:S101.采集所述单词内容的第一字符的第一ASCII码值,通过将所述第一ASCII码值进行31进制转换后,与所述单词内容的第二字符的第二ASCII码...

【专利技术属性】
技术研发人员:郝顺平关祎宁
申请(专利权)人:沈阳创思佳业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1