【技术实现步骤摘要】
一种提高机器翻译准确度的方法及其装置
本专利技术涉及机器翻译
,特别涉及一种提高机器翻译准确度的方法及其装置。
技术介绍
目前,现有的主流机器翻译方法是基于端到端的神经机器翻译方法,利用大规模双语平行语料,通过Encoder-Decoder神经网络框架进行模型训练。为了更好地表达原文本的含义,许多方法是通过将外部资源,如句法信息、短语信息等融入到模型训练中。神经网络内部操作复杂,无法保证输入文本被正确翻译,容易出现错翻、漏翻等现象;获取的外部资源,例如通过句法分析器获取的句法信息,无法保证其准确性,而错误信息的引入会影响模型翻译的效果。
技术实现思路
本专利技术提供一种提高机器翻译准确度的方法及其装置,用以解决神经网络内部操作复杂,无法保证输入文本被正确翻译,容易出现错翻、漏翻的情况。一种提高机器翻译准确度的方法,其特征在于,包括:确定双语平行语料中的源语料和目标语料;根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信 ...
【技术保护点】
1.一种提高机器翻译准确度的方法,其特征在于,包括:/n确定双语平行语料中的源语料和目标语料;/n根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;/n根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;/n通过Encoder-decoder框架对增加权重后的目标语料和源语料进行训练,确定翻译模型。/n
【技术特征摘要】
1.一种提高机器翻译准确度的方法,其特征在于,包括:
确定双语平行语料中的源语料和目标语料;
根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;
根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;
通过Encoder-decoder框架对增加权重后的目标语料和源语料进行训练,确定翻译模型。
2.根据权利要求1所述的一种提高机器翻译准确度的方法,其特征在于,所述确定双语平行语料中的源语料和目标语料,包括:
获取现有的双语平行语料数据,对所述现有的双语平行语料数据中的句子进行断句分词处理,获取断句分词后的双语语料集;
根据预设的文本转化规则,将所述双语语料集转化为双语语料文本;
根据所述双语料文本的语义,确定关键语义和非关键语义;
根据所述关键语义的权重,确定目标语料;
通过所述关键语义和非关键语义与所述现有的双语平行语料数据匹配,确定源语料。
3.根据权利要求1所述的一种提高机器翻译准确度的方法,其特征在于,所述根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息之前,还包括:
获取现有的单语语料数据,对所述单语语料进行分类处理,确定分类处理后的单语语料文本;
根据所述单语语料文本中的语义,确定单语关键语义和单语非关键语义,并根据所述关键语义和非关键语义分别进行标记,获取标记单语语料;
将所述标记单语语料作为训练数据构建关键语义要素抽取网络;
根据所述关键语义要素抽取网络,通过双向LSTM来建模所述单语语料文本的词语级的向量表示,然后利用所述向量表示进行所述关键语义和非关键语义的二分类训练,得到关键语义要素抽取分类网络。
4.根据权利要求1所述的一种提高机器翻译准确度的方法,其特征在于,所述根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重,包括:
获取端到端的Encoder-decoder框架,通过所述Encoder-decoder框架读取源语料,确定所述源语料的源序列;
通过所述Encoder-decoder框架中的encoder模块将所述源序列转成固定维度的第一向量表示,并输入到所述Encoder-decoder框架的encoder-decoderattention端;
通过所述Encoder-decoder框架读取所述目标语料,确定所述目标语料的目标序列;
经过所述Encoder-decoder框架的decoder模块将输入的所述目标序列转成固定维度的第二向量表示,并输入到所述encoder-decoderattention端,所述encoder-decoderattention端根据所述关键语义,确定所述关键语义在句子中的位置信息,并增加所述关键语义在句子中的权重。
5.根据权利要求1所述的一种提高机器翻译准确度的方法,其特征在于,所述通过Encoder-decoder框架对增加权重后的所述目标语料和所述源语料进行训练,确定翻译模型之前,还包括:
将所述增加权重的关键语义通过下式(1)进行Softmax计算,确定翻译顺序;
其中,所述S(z)i表示翻译第i个单词的概率;所述e表示zi的底数;zi表示第i个词的向量,所述C表示单词的类别个数;所述j表示第j个单词;
根据所述翻译顺序,实现梯度回转。
<...
【专利技术属性】
技术研发人员:丁颖,
申请(专利权)人:云知声智能科技股份有限公司,厦门云知芯智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。