基于领域自动识别篇章机器翻译方法、机器翻译系统技术方案

技术编号：18711106 阅读：28 留言：0更新日期：2018-08-21 22:42

本发明专利技术属于自然语言的处理或转换技术领域，公开了一种基于领域自动识别篇章机器翻译方法、机器翻译系统，所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域；对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译；对翻译的句子进行合并得到最终的篇章翻译结果。本发明专利技术在传统的机器翻译机制上做了改进，采用了分类算法将待翻译的语句进行领域的划分，再放入对应所属领域翻译系统进行翻译。相比于传统人工选择领域翻译系统进行翻译方法，该发明专利技术可以省去人工判断句子所属领域的时间。相比如直接利用通用翻译系统进行翻译，该发明专利技术可以有效提升翻译准确率。

Domain based automatic identification of text Machine Translation method and Machine Translation system

The invention belongs to the field of natural language processing or conversion technology, and discloses a domain-based automatic recognition text machine translation method and a machine translation system. The domain-based automatic recognition text machine translation method divides the sentences to be translated into corresponding fields, and each sentence to be translated in a text is corresponding to the corresponding fields. The corresponding domain information retrieval system translates the sentences and merges the translated sentences to get the final translation results. The invention improves the traditional machine translation mechanism, adopts classification algorithm to divide the sentences to be translated into domains, and then puts them into the corresponding domain translation system for translation. Compared with the traditional manual selection domain translation system, the invention can save the time for judging the domain in which a sentence belongs. Compared with the direct translation using universal translation system, the invention can effectively improve the accuracy of translation.

全部详细技术资料下载

【技术实现步骤摘要】
基于领域自动识别篇章机器翻译方法、机器翻译系统
本专利技术属于自然语言的处理或转换
，尤其涉及一种基于领域自动识别篇章机器翻译方法、机器翻译系统。
技术介绍
目前，业内常用的现有技术是这样的：机器翻译是一种利用机器学习算法从双语平行数据中学习两种语言之间相关联系，再利用学习的规则将一种自然语言转化成另外一种自然语言的过程。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。机器翻译从二十世纪三四十年代开始经历过开创期、受挫器、恢复期、新时期。新时期自1990年开始，经历了基于规则的机器翻译、基于统计的机器翻译以及基于神经网络的机器翻译。现阶段占据主流地位的是基于神经网络的机器翻译，相比于统计机器翻译它采用的是端到端的翻译方式。基于神经网络机器翻译的主要思想是采用一个“编码解码”的结构，编码与解码模块分别使用一个循环神经网络进行训练与翻译。对于一句待翻译的句子，编码器首先将该句子转化成一个固定维度的向量，接着将该向量作为输入，解码器会给出一串词向量序列，最终通过在词典查找的方式将该输出的词向量序列转化为目标语言词。在现有的主流机器翻译中，不管是基于统计的机器翻译系统还是基于神经网络的机器翻译系统，采用的都是数据驱动的技术。理论上训练数据的量越大，翻译系统的效果越好。然而在实际情况中待测试的数据与翻译系统的训练数据相关性越大，翻译效果越好。如果待翻译的句子属于教育类，使用900万句高质量教育类训练数据训练的翻译系统的表现有很大概率会优于用1000万句高质量军事类训练数据训练的翻译系统。在实际应用中会出现两种情况，一种是无论用户输入的待...

【技术保护点】
1.一种基于领域自动识别篇章机器翻译方法，其特征在于，所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域；对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译；对翻译的句子进行合并得到篇章翻译结果。

【技术特征摘要】
1.一种基于领域自动识别篇章机器翻译方法，其特征在于，所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域；对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译；对翻译的句子进行合并得到篇章翻译结果。2.如权利要求1所述的基于领域自动识别篇章机器翻译方法，其特征在于，所述待翻译的句子划分到对应领域具体包括：(1)使用朴素贝叶斯方法对待翻译的文章进行领域分类，待翻译的文章，使用如下公式计算文章属于每个领域类别的分数：P(x|yi)＝p(x1|yi)p(x2|yi)...p(x3|yi)；其中，xi为文本中去除停用之后的所有词，yi为对应类别；(2)对文本中的每句话进行分类，将句子中的词转化为一个特定维度的向量，该特定维度的向量被成为词向量，词转化为embedding过程中使用的是一种单射函数，在数学上可表示为一个映射：f：Ｘ→Ｙ；将经过转化之后的词向量输入到长短时记忆层进行计算；对于输入的词向量，通过以下公式计算在t时刻记忆单元状态候选值以及输入门it:it＝σ(Wixt+Uiht-1+bi)；其中σ()为激励函数，tanh()表示双曲正切函数，Wi、Ui、Wc为对应权重矩阵，t表示t时刻，bi与bc分别表示偏置；(3)利用如下公式计算在t时刻记忆单元遗忘门对应的值ft：ft＝σ(Wfxt+Ufht-1+bf)；其中σ()为激励函数，Wf、Uf为遗忘门对应权重矩阵，t表示t时刻，bf表示遗忘门对应偏置；(4)接着根据得到的it、以及ft利用如下公式更新当前状态值Ct：根据更新后的新状态值，使用如下公式计算最终输出：ot＝σ(Woxt+Uo...

【专利技术属性】
技术研发人员：汪一鸣，程国艮，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人