一种翻译语料库的匹配方法组成比例

技术编号:39056890 阅读:15 留言:0更新日期:2023-10-12 19:50
本发明专利技术涉及一种翻译语料库的匹配方法,属于智能翻译技术领域。包括获取翻译待匹配语句,确定待匹配语句的语句长度;对待匹配语句进行文本关键词提取切分处理;对关键词进行语意拓展并进行智能排序,进行信息交叉拆分;根据翻译语料库初步匹配到待匹配语句的粗粒度子集;通过检索字符串相似度来识别测试集的字符串高潜力语句,利用利用句子语义向量相似度和编辑距离线性组合与粗粒度子集进行匹配,得到最佳的匹配结果。本发明专利技术提供一种翻译语料库的匹配方法,其传统的大规模翻译记忆库的基于编辑距离的模糊匹配系统和方法,本发明专利技术的方法可有效提高输出效率和准确率,增加了相似文本匹配的步骤,提高了文本翻译的准确性,匹配召回率明显增高。回率明显增高。

【技术实现步骤摘要】
一种翻译语料库的匹配方法


[0001]本专利技术涉及一种翻译语料库的匹配方法,属于智能翻译


技术介绍

[0002]随着信息技术、云计算等相关技术的发展,翻译技术、语音识别以及翻译平台等相关技术都得到了较快的发展。在大数据背景下,语料库中的翻译资源日益丰富,这也推动了计算机辅助翻译软件的兴起,逐渐地从单机版走向了网络及云端,例如,中业科技依靠互联网的大数据,结合不同的国家和地区因素以及语言环境,研发了Trycan翻译平台,改变了传统的机器翻译、人工翻译的旧模式,使得翻译的准确性、快速性均得到了较大的提高。但是由于语言自身具有复杂的特点,因此导致计算机辅助翻译仍然需要不断升级创新。该技术主要是利用网络、计算机软件对需要翻译的文本进行相关的翻译处理,在翻译的过程中可以采用前期建立好的语料库,提高翻译的质量和效率。
[0003]计算机辅助翻译主要是基于语料库来进行翻译工作,因此,前期翻译软件翻译语料库对于是否可以共享、导入和导出等功能较为关注,然而,随着计算机翻译的不断应用,应用场景开始关注翻译的效率及准确率,但是现有匹配方法比较低级,而且速度很慢,也无法达到模糊匹配的结果。
[0004]同时,计算机辅助翻译的模糊匹配召回率不高,具体体现在进行计算机辅助翻译时,译者一般需要检索记忆库,以便找到最合适的译文,因此对于一些重复率不是很高的文章来说,仍然需要人工进行大量的翻译工作。

技术实现思路

[0005]有鉴于此,本专利技术提供一种翻译语料库的匹配方法,其传统的大规模翻译记忆库的基于编辑距离的模糊匹配系统和方法,本专利技术的方法可有效提高输出效率和准确率,增加了相似文本匹配的步骤,提高了文本翻译的准确性,匹配召回率明显增高。
[0006]本专利技术提供一种翻译语料库的匹配方法,其包括以下步骤:
[0007]1)获取翻译待匹配语句,确定待匹配语句的语句长度;
[0008]2)对待匹配语句进行文本关键词提取切分处理;
[0009]3)对关键词进行语意拓展并进行智能排序,进行信息交叉拆分;4)根据翻译语料库初步匹配到待匹配语句的粗粒度子集;5)通过检索字符串相似度来识别测试集的字符串高潜力语句,利用利用句子语义向量相似度和编辑距离线性组合与粗粒度子集进行匹配,得到最佳的匹配结果。
[0010]优选的,所述步骤2)中提取关键词,根据语句长度计算文本切分的切分粒度和切分偏移,切分出符合所述切分粒度的文本片段。
[0011]优选的,所述步骤4)中对信息交叉拆分后的关键词遍历每个关键词所有可能的词语组合方式,作为该关键词的候选词集,每个语料对应一个候选词集。
[0012]优选的,针对候选词集,查找当前关键词对应当前应用领域的专业词,对选词集进
行重复扩充,重复扩充的专业词重复于当前专业词前或后,从而进行数据增强,选择的最有可能的词语组合进行局部修正,生成该语料的最终词语组合。
[0013]优选的,所述步骤5)中通过检索字符串相似度来识别测试集的字符串高潜力语句,根据检索到的候选语句数量,使用编辑距离算法计算出最高的字符串相似度得分;最后根据字符串相似度得分,其相似度门控阈值为0.7,定义为字符串高潜力语句。
[0014]本专利技术的有益效果:
[0015]本专利技术提供一种翻译语料库的匹配方法,其传统的大规模翻译记忆库的基于编辑距离的模糊匹配系统和方法,本专利技术的方法可有效提高输出效率和准确率,增加了相似文本匹配的步骤,提高了文本翻译的准确性,匹配召回率明显增高。
具体实施方式
[0016]下面将对本专利技术的优选实施例进行详细的描述。
[0017]本专利技术提供一种翻译语料库的匹配方法,其包括以下步骤:
[0018]1)获取翻译待匹配语句,确定待匹配语句的语句长度;
[0019]2)对待匹配语句进行提取关键词,根据语句长度计算文本切分的切分粒度和切分偏移,切分出符合所述切分粒度的文本片段;
[0020]3)对关键词进行语意拓展并进行智能排序,进行信息交叉拆分,对信息交叉拆分后的关键词遍历每个关键词所有可能的词语组合方式,作为该关键词的候选词集,每个语料对应一个候选词集,针对候选词集,查找当前关键词对应当前应用领域的专业词,对选词集进行重复扩充,重复扩充的专业词重复于当前专业词前或后,从而进行数据增强,选择的最有可能的词语组合进行局部修正,生成该语料的最终词语组合;
[0021]4)根据翻译语料库初步匹配到待匹配语句的粗粒度子集;
[0022]5)通过检索字符串相似度来识别测试集的字符串高潜力语句,根据检索到的候选语句数量,使用编辑距离算法计算出最高的字符串相似度得分;最后根据字符串相似度得分,其相似度门控阈值为0.7,定义为字符串高潜力语句,利用利用句子语义向量相似度和编辑距离线性组合与粗粒度子集进行匹配,得到最佳的匹配结果。
[0023]上对本专利技术及其实施方式进行了描述,这种描述没有限制性,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本专利技术创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利技术的保护范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译语料库的匹配方法,其特征在于,包括以下步骤:1)获取翻译待匹配语句,确定待匹配语句的语句长度;2)对待匹配语句进行文本关键词提取切分处理;3)对关键词进行语意拓展并进行智能排序,进行信息交叉拆分;4)根据翻译语料库初步匹配到待匹配语句的粗粒度子集;5)通过检索字符串相似度来识别测试集的字符串高潜力语句,利用利用句子语义向量相似度和编辑距离线性组合与粗粒度子集进行匹配,得到最佳的匹配结果。2.根据权利要求1所述的一种翻译语料库的匹配方法,其特征在于:所述步骤2)中提取关键词,根据语句长度计算文本切分的切分粒度和切分偏移,切分出符合所述切分粒度的文本片段。3.根据权利要求1所述的一种翻译语料库的匹配方法,其特征在于:所述步骤4)中对信息交...

【专利技术属性】
技术研发人员:金秀英
申请(专利权)人:长春科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1