非常规词语或非常规短句的判断以及翻译方法及其系统技术方案

技术编号:16755573 阅读:41 留言:0更新日期:2017-12-09 02:05
本发明专利技术提供了一种非常规词语或非常规短句的判断以及翻译方法,包括获取待翻译对象、判断该中文词语或者中文短句是否属于非常规词语或者非常规短句、语义切分、在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇以及显示翻译结果等步骤。本发明专利技术还公开了执行上述方法的系统。由于采取了主流媒体作为翻译语料库,翻译结果可信度高;此外,在面对多个检索结果时,本发明专利技术还给出了具体的翻译结果选择方法,从而选择出准确度最高的翻译结果,避免了传统互联网检索翻译的杂乱无章。

The judgment of unconventional or unconventional short sentences and the methods and systems of translation

The invention provides a non conventional word or phrase of non conventional judgment and translation methods, including access to the translation object, the judgment of the words or phrases Chinese Chinese belong to non conventional words or non conventional phrases, semantic segmentation, in at least one pre established foreign language corpus retrieval, obtaining at least one foreign language the translation of words corresponding to the Chinese pinyin translation and display results. The invention also discloses a system for executing the above method. Due to the mainstream media as translation corpus, translation results; in addition, in the face of multiple search results, the invention also provides a specific translation selection method to select the highest accuracy, to avoid the traditional Internet search translation out of order.

【技术实现步骤摘要】
非常规词语或非常规短句的判断以及翻译方法及其系统
本申请涉及翻译
,具体的涉及一种非常规词语或非常规短句的判断以及翻译方法,以及实现该方法的系统。
技术介绍
由于全球化进程以及互联网技术的发展,信息的传播速度比任何时候都快。随着我国经济、政治影响力的进一步提升,汉语的文化输出越来越明显,汉语的国际影响力也越来越大。为了更好的推广汉语文化,大量的汉语书籍已经被翻译为外文走向世界。然而,由于知识量的爆炸性增长,单纯的人工翻译已经远远不能满足需要,于是产生了各种翻译辅助工具,包括翻译词典、在线词典、在线翻译工具甚至自动语音翻译工作,极大的减轻了翻译工作量,加快了翻译速度。然而,上述传统的翻译辅助工具针对的翻译对象都是传统的中文词语、中文短句或者句子,其翻译原理均是基于已有的短语-外文对照表,例如各种权威词典,从中选择最合适的翻译结果。一旦要翻译的对象不在上述对照表中,上述翻译工具就会找不到翻译结果;有鉴于此,有些翻译工具还会连接上互联网,采用互联网搜索的方式得到可能的翻译结果,但是互联网搜索的结果往往千差万别,对同一个词语的翻译可能得到几十种甚至上百种不同的翻译结果,从而依然无法得到准确的翻译结果;特别是对一些非常规词语、非常规短句而言,由于其出现的频率较低,出现的时间较短,传统的翻译工具所以依靠的词典尚未收录,而单纯依靠搜索引擎得到的结果依然会不准确。因此,需要针对非常规词语或非常规短句的判断以及翻译提出一种有效的技术方案。
技术实现思路
本专利技术提供了一种非常规词语或非常规短句的判断以及翻译方法,该方法包括如下步骤:S1:获取待翻译的中文词语或者中文短句;S2:判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,S3:如果该中文词语或者中文短句不属于非常规词语或者非常规短句,则采用常规翻译方法获得翻译结果,进入步骤S7;否则进入步骤S4:S4:如果是中文词语,对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音;S5:根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;S6:从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;S7:显示所述待翻译的中文词语或者中文短句翻译结果。在本专利技术中,“非常规词语”或者“非常规短句”是指区别于已有的常规词语和常规短句的其他待翻译对象。本领域技术人员可以理解,常规词语或者常规短句至少具备以下含义:(1)主流的、常见的短句、词语;(2)已经被普通翻译工具收录的短句、词语。这两类词语或者短句,由于其已经是常见的类型,极大可能已经被翻译工具收录,因此,如果待翻译的对象属于常规短句或者词语,则采用常规的翻译工具即可获得较为准确的翻译结果;除上述两类外,还有一种类型的短句或者短语,在本专利技术中也被归为“常规”的短句或者词语,即互联网上已经出现的时间较久的热词。热词的含义在于:首先,相对于主流词汇,其是新出现的,在传统的知识库中并没有出现,而是由于互联网的发展,逐渐在互联网上流行,时间久了就为社会大众所接受;其次,虽然是新出现的词,但是其流行程度高,出现频率高,大众使用次数多;最后,其出现的时间已经较长。之所以将热词也归为“常规”,是因为其由于出现时间较长,大众已经认同了其基本的含义,因此,相应的主流媒体或者词典工具,均会及时的将其收录。因此,如果待翻译对象属于热词,也可以根据现有的词典工具获得其较准确的翻译。本专利技术的方法首先判断待翻译对象是否属于常规对象,也能够避免重复工作。有鉴于此,本专利技术判断待翻译对象是否属于非常规词语或者非常规短句,是指(A)判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点,和/或,(B)判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。上述标准(A)、标准(B)可以分别判断,也可以结合一起判断。有别于常规短句或者词语,如果待翻译对象首次出现的时间很晚,例如,最近三个月才出现、最近半年才出现,则该词或者短句会被判定为非常规。此处,将首次出现的时间设定为一个时间点,该时间点可以根据翻译工作的时效性来确定,例如三个月以内、半年以内等等;同时,还可以考虑待翻译对象所在领域,综合考虑该领域的词汇更新速度,来确定该时间点。此外,有别于常规短句或者词语,如果一个词汇在某一段时间内出现的频率很低,则也可以判定为非常规。出现的频率低,则代表其不是热词,或者至少还没有成为热词。此处,“很低”的标准在于频率的高低,本领域技术人员可以根据实际需要,例如,翻译时效性需要、待翻译对象的领域更新速度等因素,来设置一个比较阈值。因此,根据上述标准(A)和/或(B),就可以判断出待翻译对象的属性。需要指出的是,待翻译对象的属性不是一成不变的。在判断的时间节点或者时间段内,待翻译对象的属性可能是非常规,但是经过一段时间之后,其属性就有可能发生变化。例如,某个词汇最近一个月才新出现,其使用频率很低,此时对其翻译,其属性就被判断为非常规;可能过了一段时间,例如,一年后或者六个月后,该词汇得到了充分流行,已经成为流行词或者热词,此时,若再次对其翻译,其属性已经变为常规。在确定待翻译对象为非常规词语或者短句后,需要对其进行语义分析。由于待翻译对象属于非常规,本领域尚未对其有确定的翻译。因此,在对其进行外文表达时,主流媒体通常首先采用其汉语拼音形式进行介绍,然后给出相应的英文解释,以便于对外交流。基于这一点,本专利技术首先需要将待翻译对象转化为汉语拼音。具体来说,如果待翻译对象是中文词语,可直接对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音。得到汉语拼音之后,就可以在语料库中检索,获得与所述汉语拼音对应的至少一个外文翻译词汇。由于语料库可能有多个,不同的语料库可能检索得出不同的检索结果,因此,还需要从中选择出最合适的结果作为翻译结果。本专利技术针对不同的检索情形,给出了相应的选择方法:如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;或者:如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由步骤S4得到的该中文短句的其他切分中文词语的翻译结果,从多个中文词语的翻译结果综合得出该中文短句的翻译结果。在本专利技术中,需要预先建立检索使用的外文语料库。所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;和/或,利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。需要指出的是,所述预先建立的外文语料库的内容不是一成不变的,其根据预设时间点的不同,预设时间段的不同,领域的更新速度不同等而更新;其可以自动更新,也可以本文档来自技高网...
非常规词语或非常规短句的判断以及翻译方法及其系统

【技术保护点】
一种非常规词语或非常规短句的判断以及翻译方法,该方法包括如下步骤:S1:获取待翻译的中文词语或者中文短句;S2:判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,S3:如果该中文词语或者中文短句不属于非常规词语或者非常规短句,则采用常规翻译方法获得翻译结果,进入步骤S7;否则进入步骤S4:S4:如果是中文词语,对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音;S5:根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;S6:从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;S7:显示所述待翻译的中文词语或者中文短句翻译结果;其特征在于:步骤S2中判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,是指判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点,和/或,判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。

【技术特征摘要】
1.一种非常规词语或非常规短句的判断以及翻译方法,该方法包括如下步骤:S1:获取待翻译的中文词语或者中文短句;S2:判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,S3:如果该中文词语或者中文短句不属于非常规词语或者非常规短句,则采用常规翻译方法获得翻译结果,进入步骤S7;否则进入步骤S4:S4:如果是中文词语,对其进行语义分析,将中文词语转化为汉语拼音;如果是中文短句,则对该短句进行语义切分,将短句切分成至少一个中文词语,将所述中文词语进行语义分析,并将所述中文词语转化为汉语拼音;S5:根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇;S6:从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;S7:显示所述待翻译的中文词语或者中文短句翻译结果;其特征在于:步骤S2中判断该中文词语或者中文短句是否属于非常规词语或者非常规短句,是指判断该中文词语或者中文短句首次出现的时间是否晚于某一个预设时间节点,和/或,判断该中文词语或者中文短句在某一预设时间段内出现的频率是否低于某一个预设值。2.如权利要求1所述的方法,步骤S5中,所述根据所述汉语拼音,在至少一个预先建立的外文语料库中进行检索,获得与所述汉语拼音对应的至少一个外文翻译词汇,具体包括:所述预先建立的外文语料库,是指利用网络爬虫程序,以所述预设时间节点为起点,在互联网外文语料中采集该预设时间节点之后出现的外文词汇;和/或,利用网络爬虫程序,在互联网外文语料中采集该预设时间段内出现的外文词汇。3.如权利要求1所述的方法,步骤S6中,从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文词语,则按照如下方式之一确定该中文词语的翻译结果:如果不同外文语料库中检索得到多个不同外文翻译词汇,则统计每个外文翻译词汇在每个外文语料库中出现的次数,选择出现次数最多的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果;或者:选择所有外文语料库中出现时间最晚的外文翻译词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果。4.如权利要求1所述的方法,步骤S6中,从所述至少一个外文翻译词汇中,选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果,进一步包括:如果该汉语拼音来自于中文短句的某一个切分中文词语,则继续获取由步骤S4得到的该中文短句的其他切分中文词语的翻译结果。5.如权利要求1-4任一项所述的方法,所述互联网外文语料库选自发布外文新闻的...

【专利技术属性】
技术研发人员:王静
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1