一种包含非常规词汇的中文句子翻译方法及系统技术方案

技术编号:16837390 阅读:34 留言:0更新日期:2017-12-19 19:54
本发明专利技术提供了一种包含非常规词汇的中文句子翻译方法及系统。针对包含非常规词汇的中文句子,本发明专利技术首先通过分词技术,识别出其中的常规词汇和非常规词汇,然后,分别对这两部分进行分析和翻译,组合出翻译结果;其中,常规词汇可以通过自动翻译工具得出,对于非常规词汇,则可以采用本发明专利技术提出的语料库检索技术得到比较准确的翻译结果。通过本发明专利技术的方法,翻译人员只需要完成较小工作量的编辑和校对工作,即可得到整个句子的翻译结果,同时保证了较高的准确率。

A Chinese sentence translation method and system containing unconventional vocabulary

The present invention provides a Chinese sentence translation method and system including unconventional vocabulary. According to the sentences containing non conventional vocabulary Chinese, first through the invention of word segmentation, identify the conventional and non conventional vocabulary words, then, each of the two parts of the analysis and translation, combination of translation results; the conventional vocabulary by automatic translation tools that, for non conventional vocabulary, you can use the the corpus retrieval technology to obtain more accurate translation results. Through the method of the invention, translators only need to complete the editing and proofreading work with less workload, so that the translation result of the whole sentence can be obtained, and the higher accuracy rate is ensured.

【技术实现步骤摘要】
一种包含非常规词汇的中文句子翻译方法及系统
本专利技术涉及翻译
,特别涉及一种包含非常规词汇的中文句子翻译方法及系统。
技术介绍
由于互联网技术的发展,各种新词汇层出不穷。特别是社交网络工具的普及,每个人都成为信息的发布者和创造者。通过社交网络,参与者可以自由的编纂词汇、自创词语甚至各种句子进行交流。然而,这些词汇、自创词甚至句子都是有别于传统的词语和句子,并不被传统语料库所收录。然而,由于中文文化对外交流的需要,需要对各种中文句子进行准确的翻译。但是现有的翻译工具大多只能针对已有的常见语句进行翻译,对于包含非常规词汇的句子,翻译工具往往无能为力或者给出错误结果。如果逐一对句子进行人工识别,由于翻译工作量巨大,翻译工作本身往往枯燥重复,容易产生错误识别,工作效率不高。因此,急需一种能够对包含非常规词汇的中文句子进行翻译的方法和翻译系统,以便解决上述问题。
技术实现思路
本专利技术提供了一种包含非常规词汇的中文句子翻译方法及系统。针对包含非常规词汇的中文句子,本专利技术首先通过分词技术,识别出其中的常规词汇和非常规词汇,然后,分别对这两部分进行分析和翻译,组合出翻译结果;其中,常规词汇可以通过自动翻译工具得出,对于非常规词汇,则可以采用本专利技术提出的语料库检索技术得到比较准确的翻译结果。通过本专利技术的方法,翻译人员只需要完成较小工作量的编辑和校对工作,即可得到整个句子的翻译结果,同时保证了较高的准确率。本专利技术提出的一种包含非常规词汇的中文句子翻译方法,所述方法包括:识别所述中文句子中的常规词汇部分和非常规部分,分别对常规词汇和非常规词汇进行翻译,并输出翻译结果,其特征在于,包括如下步骤:A1:获取待翻译的中文句子S;A2:对所述的待翻译的中文句子S进行分词处理,将所述中文句子切分成N个子部分;每个子部分均具有一个属性值,所述属性值为如下三种之一:常规、非常规、未识别;A3:将步骤A2得到的N个子部分按照其在原中文句子中的先后顺序进行排序,得到有序子部分S(0),S(2),……,S(N-1);并将所述有序子部分S(0),S(2),……,S(N-1)的属性值均初始化为“未识别”;A4:对每一个子部分,识别其属性,并输出每一子部分的属性识别结果,具体包括:(A40)对于i=0,计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”;否则,设置S(i)属性为“非常规”;(A41)令i=i+1,判断i<(N-1)是否成立;如果是,进入下一步(A42),否则,进入步骤(A43);(A42)判断S(i)的属性是否为“未识别”;如果是,则计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”,否则,设置S(i)属性为“非常规”;返回执行步骤(A41);如果否,则直接返回执行步骤(A41);(A43)判断S(i)的属性是否为“未识别”;如果否,则识别结束;如果是,则设置S(i)属性为“非常规”;A5:分别对待翻译的中文句子S中的属性为“常规”的子部分和属性为“非常规”的子部分进行翻译,获得两部分翻译结果;A6:将两部分翻译结果进行组合、编辑、校对,获得所述待翻译的中文句子S的翻译结果;A7:输出所述翻译结果。其中,计算两个子部分的连接概率,包括:计算两个子部分同在一个句子中出现的概率;计算两个子部分在同一个句子中相邻出现的概率;计算两个子部分在同一个句子中距离小于一定阈值的概率。其中,对于不同的参数i,所述阈值区间Ti1满足如下条件之一:(1)区间Tk1是区间T01子集;其中1<k<N;(2)区间T01上限大于区间Tk1上限,其中1<k<N;(3)如果m>n,则阈值区间Tm1的区间长度小于阈值区间Tn1的区间长度,其中1<m<N,1<n<N。当识别出待翻译的中文句子S中的属性为“非常规”的子部分之后,对对待翻译的中文句子S中的属性为“非常规”的子部分进行翻译,其具体步骤如下:S41:如果所述属性为“非常规”的子部分是中文词语,对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音;S42:根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;S43:从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;S43:显示所述待翻译的中文词语或者中文短句翻译结果。其中,所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;和/或,利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。为区分显示待翻译的中文句子S中的属性为“非常规”的子部分和待翻译的中文句子S中的属性为“常规”的子部分,在显示过程中,还可以对两部分分别以不同格式显示,例如,常规子部分正常显示,而非常规子部分加粗显示、以不同显示、下划线显示或者其他着重显示方式;相对应的,常规子部分的翻译结果也常规显示,而非常规子部分的翻译结果加粗显示、以不同显示、下划线显示或者其他着重显示方式。采用这种方式的好处在于,后期人工对翻译结果进行编辑、校对、组合时,可以关注到重点,减轻视觉疲劳。为执行上述方法,本专利技术还提供了一种用于实现上述翻译方法的系统,其包含存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器执行所述可执行指令,用于执行所述的翻译方法。本专利技术的有益效果通过本专利技术,在针对包含非常规词汇的中文句子进行翻译时,首先识别出其中的常规词汇和非常规词汇,然后,分别对这两部分进行分析和翻译,组合出翻译结果;其中,常规词汇可以通过自动翻译工具得出,对于非常规词汇,则可以采用本专利技术提出的语料库检索技术得到比较准确的翻译结果。通过本专利技术的方法,翻译人员只需要完成较小工作量的编辑和校对工作,即可得到整个句子的翻译结果,同时保证了较高的准确率。附图说明图1-图4是现有技术中的几种翻译结果图5是本专利技术的翻译方法的流程图图6是本专利技术的翻译结果界面示意图。具体实施方式如附图1-4所示,现有技术中常见的几种翻译工具,包括谷歌翻译、百度翻译、金山词霸以及网易有道,对于一个包含非常规词语“石乐志”的句子“他玩游戏石乐志。”的翻译结果,其结果分别显示如图1-图4所示。众所周知,“石乐志”起源于某网络游戏论坛,是游戏网友相互之间交流用语,其本意是想表达“失了智”。由于网络语言的随意性,其流行演变成了“石乐志”。对包含该词的句子进行翻译时,如果不能正确识别,则无法得到正确的翻译结果,造成翻译错误。以附图1为例,谷歌翻译的结果是“Heplayedthegame.”可见,该翻译工具完全不能识别“石乐志”这个词汇,仅仅对待翻译句子“他玩游戏石乐志。”的常规部分进行了翻译,即只能得到“他玩游戏”的翻译结果“Heplayedthegame.”,翻译结果当然不正确;图2中,百度翻译的结果也为“HeplayedthegameLezhistone.″再看附图3,本文档来自技高网...
一种包含非常规词汇的中文句子翻译方法及系统

【技术保护点】
一种包含非常规词汇的中文句子翻译方法,所述方法包括:识别所述中文句子中的常规词汇部分和非常规部分,分别对常规词汇和非常规词汇进行翻译,并输出翻译结果,其特征在于,包括如下步骤:A1:获取待翻译的中文句子S;A2:对所述的待翻译的中文句子S进行分词处理,将所述中文句子切分成N个子部分;每个子部分均具有一个属性值,所述属性值为如下三种之一:常规、非常规、未识别;A3:将步骤A2得到的N个子部分按照其在原中文句子中的先后顺序进行排序,得到有序子部分S(0),S(2),……,S(N‑1);并将所述有序子部分S(0),S(2),……,S(N‑1)的属性值均初始化为“未识别”;A4:对每一个子部分,识别其属性,并输出每一子部分的属性识别结果,具体包括:(A40)对于i=0,计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”;否则,设置S(i)属性为“非常规”;(A41)令i=i+1,判断i<(N‑1)是否成立;如果是,进入下一步(A42),否则,进入步骤(A43);(A42)判断S(i)的属性是否为“未识别”;如果是,则计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”,否则,设置S(i)属性为“非常规”;返回执行步骤(A41);如果否,则直接返回执行步骤(A41);(A43)判断S(i)的属性是否为“未识别”;如果否,则识别结束;如果是,则设置S(i)属性为“非常规”;A5:分别对待翻译的中文句子S中的属性为“常规”的子部分和属性为“非常规”的子部分进行翻译,获得两部分翻译结果;A6:将两部分翻译结果进行组合、编辑、校对,获得所述待翻译的中文句子S的翻译结果;A7:输出所述翻译结果。...

【技术特征摘要】
1.一种包含非常规词汇的中文句子翻译方法,所述方法包括:识别所述中文句子中的常规词汇部分和非常规部分,分别对常规词汇和非常规词汇进行翻译,并输出翻译结果,其特征在于,包括如下步骤:A1:获取待翻译的中文句子S;A2:对所述的待翻译的中文句子S进行分词处理,将所述中文句子切分成N个子部分;每个子部分均具有一个属性值,所述属性值为如下三种之一:常规、非常规、未识别;A3:将步骤A2得到的N个子部分按照其在原中文句子中的先后顺序进行排序,得到有序子部分S(0),S(2),……,S(N-1);并将所述有序子部分S(0),S(2),……,S(N-1)的属性值均初始化为“未识别”;A4:对每一个子部分,识别其属性,并输出每一子部分的属性识别结果,具体包括:(A40)对于i=0,计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”;否则,设置S(i)属性为“非常规”;(A41)令i=i+1,判断i<(N-1)是否成立;如果是,进入下一步(A42),否则,进入步骤(A43);(A42)判断S(i)的属性是否为“未识别”;如果是,则计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”,否则,设置S(i)属性为“非常规”;返回执行步骤(A41);如果否,则直接返回执行步骤(A41);(A43)判断S(i)的属性是否为“未识别”;如果否,则识别结束;如果是,则设置S(i)属性为“非常规”;A5:分别对待翻译的中文句子S中的属性为“常规”的子部分和属性为“非常规”的子部分进行翻译,获得两部分翻译结果;A6:将两部分翻译结果进行组合、编辑、校对,获得所述待翻译的中文句子S的翻译结果;A7:输出所述翻译结果。2.如权利要求1所述的翻译方法,其中,计算两个子部分的连接概率,包括:计算两个子部分同在一个句子中出现的概率;计算两个子部分在同一个句子中相邻出现的概率;计算两个子部分在同一个句子中距离小于一定阈值的概率。3.如权利要求2所述的翻译方法,其中,对于不同的参数i,所述阈值区间Ti1满足如下条件...

【专利技术属性】
技术研发人员:王静
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1