基于相似度的智能离线翻译机制造技术

技术编号:18204049 阅读:134 留言:0更新日期:2018-06-13 06:15
本发明专利技术的提供一种基于相似度的智能离线翻译机,特别是汉语到英语的基于相似度的智能离线翻译机,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。

【技术实现步骤摘要】
基于相似度的智能离线翻译机
本专利技术属于自动翻译领域,具体涉及一种基于相似度的智能离线翻译机。
技术介绍
随着智能设备的发展,智能操作系统也越来越多样化,比如苹果公司的IOS,谷歌公司的Android,火狐公司的FirefoxOS等等,而集成了这些系统的智能设备也开始被越来越多的用户使用,用户使用这些设备进行游戏,社交,阅读等等日常活动。而随着社会的愈来愈开放,人们现在也有着更多的机会阅读到不属于自己母语的内容,不论是平时爱好阅读,或者是因专业学习,工作需求等,常常会碰到很多外语资料,目前智能设备上存在最普遍的查询外语词汇的方法是由用户手动打开外语查询应用,手动输入单词查询,稍微做的好一些应用比如有道词典。目前流行的自动翻译方法主要有三类,第一类是基于词的,以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识,翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,组合成目标语言句子,特点是翻译虚度快,但准确度较差,第二类是基于短语的翻译,翻译粒度从单词扩展到短语,较好解决局部上下文依赖问题,大大提高翻译的流利度和准确率,第三类是基于句法的翻译,将句法结构信息引入翻译过程,但需要将语法结构知识引入,且需要在翻译之前利用句法知识调整源语言语序,在翻译之后利用句法知识做重排序。目前来说,现有的机器自动翻译中,第三类翻译是趋势,然而要想获得较好的翻译效果,最好是通过在线联网的方式获得语法结构,另外,该翻译速度也较慢。尽管互联网已得到了极大的普遍应用,然而,随着环境的变化,以及各种临时条件的出现,我们的智能设备也不能时时刻刻保持在线状态,因此,急需一种基于相似度的智能离线翻译机,在尽可能实现脱离网络的情况下,也能得到较为准确的翻译结果。
技术实现思路
鉴于以上分析,本专利技术的主要目的在于提供一种克服上述缺陷的基于相似度的智能离线翻译机,特别是汉语到英语的基于相似度的智能离线翻译机,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则技能得到较为准确的翻译结果。本专利技术的目的是通过以下技术方案实现的。一种基于相似度的智能离线翻译机,其特征在于,包括:汉语输入模块,用于接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;相近度计算模块,用于把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;对齐模块,用于根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;翻译模块,用于根据设定的英语翻译规则,翻译成符合要求的英文。进一步地,所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。进一步地,词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义数据库的语义信息和规则消除词性歧义,提高词性标注准确率。进一步地,所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去数据库搜索相近的语句。进一步地,所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系。进一步地,所述对齐包括设定数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,按照数据库中对照关系进行对齐。进一步地,所述翻译成符合要求的英文具体包括根据上述对齐结果进行翻译,如果待翻译的句子与数据库中相对应的例句相对应的字串相同,则直接将例句中的翻译结果进行重复,如果待翻译的句子与数据库中相对应的例句相对应的字串不同,则用待翻译的句子中词语所对应的翻译词语去代替例句翻译的词语在复制到新译文的适当位置,而当待翻译文本为多个词语对齐例句的一个词语时,则先翻译待翻译的多个词语,然后把待翻译的多个词语作为整体代替例句译文中对齐的部分,而所述多个词语的翻译为利用所述多个词语查询数据库中相类似的词语翻译结果,以该结果作为该多个词语的翻译结果。本专利技术的技术方案具有以下优点:克服上述在线翻译对网络数据库的依赖,仅通过对待翻译的汉语句子进行处理,提供了一种特别是汉语到英语的基于相似度的智能离线翻译机,通过对汉语句子的合理分割,相近度计算,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。附图说明图1示出了根据本专利技术优选实施例的翻译机的组成框图。具体实施方式如图1所示,一种基于相似度的智能离线翻译机,包括:汉语输入模块,用于接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;相近度计算模块,用于把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;对齐模块,用于根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;翻译模块,用于根据设定的英语翻译规则,翻译成符合要求的英文。所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义数据库的语义信息和规则消除词性歧义,提高词性标注准确率。所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去数据库搜索相近的语句。所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系。所述对齐包括设定数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,本文档来自技高网
...
基于相似度的智能离线翻译机

【技术保护点】
一种基于相似度的智能离线翻译机,其特征在于,包括:汉语输入模块,用于接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;相近度计算模块,用于把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;对齐模块,用于根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;翻译模块,用于根据设定的英语翻译规则,翻译成符合要求的英文。

【技术特征摘要】
1.一种基于相似度的智能离线翻译机,其特征在于,包括:汉语输入模块,用于接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;相近度计算模块,用于把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;对齐模块,用于根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;翻译模块,用于根据设定的英语翻译规则,翻译成符合要求的英文。2.如权利要求1所述的一种基于相似度的智能离线翻译机,其中所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。3.如权利要求2所述的一种基于相似度的智能离线翻译机,其中词语分割完成后,还包括对分割结果进行词性标注以及特殊词语...

【专利技术属性】
技术研发人员:张斌张锋
申请(专利权)人:成都海之译翻译有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1