The present invention provides a Chinese sentence translation method and system including unconventional vocabulary. According to the sentences containing non conventional vocabulary Chinese, first through the invention of word segmentation, identify the conventional and non conventional vocabulary words, then, each of the two parts of the analysis and translation, combination of translation results; the conventional vocabulary by automatic translation tools that, for non conventional vocabulary, you can use the the corpus retrieval technology to obtain more accurate translation results. Through the method of the invention, translators only need to complete the editing and proofreading work with less workload, so that the translation result of the whole sentence can be obtained, and the higher accuracy rate is ensured.
【技术实现步骤摘要】
一种包含非常规词汇的中文句子翻译方法及系统
本专利技术涉及翻译
,特别涉及一种包含非常规词汇的中文句子翻译方法及系统。
技术介绍
由于互联网技术的发展,各种新词汇层出不穷。特别是社交网络工具的普及,每个人都成为信息的发布者和创造者。通过社交网络,参与者可以自由的编纂词汇、自创词语甚至各种句子进行交流。然而,这些词汇、自创词甚至句子都是有别于传统的词语和句子,并不被传统语料库所收录。然而,由于中文文化对外交流的需要,需要对各种中文句子进行准确的翻译。但是现有的翻译工具大多只能针对已有的常见语句进行翻译,对于包含非常规词汇的句子,翻译工具往往无能为力或者给出错误结果。如果逐一对句子进行人工识别,由于翻译工作量巨大,翻译工作本身往往枯燥重复,容易产生错误识别,工作效率不高。因此,急需一种能够对包含非常规词汇的中文句子进行翻译的方法和翻译系统,以便解决上述问题。
技术实现思路
本专利技术提供了一种包含非常规词汇的中文句子翻译方法及系统。针对包含非常规词汇的中文句子,本专利技术首先通过分词技术,识别出其中的常规词汇和非常规词汇,然后,分别对这两部分进行分析和翻译,组合出翻译结果;其中,常规词汇可以通过自动翻译工具得出,对于非常规词汇,则可以采用本专利技术提出的语料库检索技术得到比较准确的翻译结果。通过本专利技术的方法,翻译人员只需要完成较小工作量的编辑和校对工作,即可得到整个句子的翻译结果,同时保证了较高的准确率。本专利技术提出的一种包含非常规词汇的中文句子翻译方法,所述方法包括:识别所述中文句子中的常规词汇部分和非常规部分,分别对常规词汇和非常规词汇进行翻译,并 ...
【技术保护点】
一种包含非常规词汇的中文句子翻译方法,所述方法包括:识别所述中文句子中的常规词汇部分和非常规部分,分别对常规词汇和非常规词汇进行翻译,并输出翻译结果,其特征在于,包括如下步骤:A1:获取待翻译的中文句子S;A2:对所述的待翻译的中文句子S进行分词处理,将所述中文句子切分成N个子部分;每个子部分均具有一个属性值,所述属性值为如下三种之一:常规、非常规、未识别;A3:将步骤A2得到的N个子部分按照其在原中文句子中的先后顺序进行排序,得到有序子部分S(0),S(2),……,S(N‑1);并将所述有序子部分S(0),S(2),……,S(N‑1)的属性值均初始化为“未识别”;A4:对每一个子部分,识别其属性,并输出每一子部分的属性识别结果,具体包括:(A40)对于i=0,计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”;否则,设置S(i)属性为“非常规”;(A41)令i=i+1,判断i<(N‑1)是否成立;如果是,进入下一步(A42),否则,进入步骤(A43);(A42)判断S(i)的属性是否为“未识别”;如果 ...
【技术特征摘要】
1.一种包含非常规词汇的中文句子翻译方法,所述方法包括:识别所述中文句子中的常规词汇部分和非常规部分,分别对常规词汇和非常规词汇进行翻译,并输出翻译结果,其特征在于,包括如下步骤:A1:获取待翻译的中文句子S;A2:对所述的待翻译的中文句子S进行分词处理,将所述中文句子切分成N个子部分;每个子部分均具有一个属性值,所述属性值为如下三种之一:常规、非常规、未识别;A3:将步骤A2得到的N个子部分按照其在原中文句子中的先后顺序进行排序,得到有序子部分S(0),S(2),……,S(N-1);并将所述有序子部分S(0),S(2),……,S(N-1)的属性值均初始化为“未识别”;A4:对每一个子部分,识别其属性,并输出每一子部分的属性识别结果,具体包括:(A40)对于i=0,计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”;否则,设置S(i)属性为“非常规”;(A41)令i=i+1,判断i<(N-1)是否成立;如果是,进入下一步(A42),否则,进入步骤(A43);(A42)判断S(i)的属性是否为“未识别”;如果是,则计算S(i)与S(i+1)的连接概率Pi1,如果该连接概率Pi1属于某个阈值区间Ti1,则将S(i)和S(i+1)属性均设置为“常规”,否则,设置S(i)属性为“非常规”;返回执行步骤(A41);如果否,则直接返回执行步骤(A41);(A43)判断S(i)的属性是否为“未识别”;如果否,则识别结束;如果是,则设置S(i)属性为“非常规”;A5:分别对待翻译的中文句子S中的属性为“常规”的子部分和属性为“非常规”的子部分进行翻译,获得两部分翻译结果;A6:将两部分翻译结果进行组合、编辑、校对,获得所述待翻译的中文句子S的翻译结果;A7:输出所述翻译结果。2.如权利要求1所述的翻译方法,其中,计算两个子部分的连接概率,包括:计算两个子部分同在一个句子中出现的概率;计算两个子部分在同一个句子中相邻出现的概率;计算两个子部分在同一个句子中距离小于一定阈值的概率。3.如权利要求2所述的翻译方法,其中,对于不同的参数i,所述阈值区间Ti1满足如下条件...
【专利技术属性】
技术研发人员:王静,
申请(专利权)人:传神语联网网络科技股份有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。