【技术实现步骤摘要】
一种基于神经网络的汉维-维汉机构名词典的挖掘系统
本专利技术属于机器翻译领域,具体涉及一种基于神经网络的汉维-维汉机构名词典的挖掘系统。
技术介绍
随着深度学习在自然语言处理中的不断应用,基于神经网络的机器翻译方法在双语资源丰富的语种获得较好的发展,翻译的质量也得到了大幅度的提升,然而在机器翻译中仍然存在差强人意的情况。对于翻译,我们首先对500个句子人工进行错误分析,发现错误翻译的单词、语法错误、漏翻译、命名实体翻译等是最主要的翻译错误。对于资源匮乏的语言,因为语料库中出现的命名实体出现频率较低,命名实体翻译错误率较高。需要大量的命名实体词典来提高翻译的质量,命名实体作为在自然语言中承载信息和表达语义的主要载体,其翻译质量是直接影响机器翻译系统性能的重要因素之一。因此,该专利技术对资源匮乏的汉维-维汉机构名翻译以及词典的挖掘进行研究。卷积神经网络(convolutionalneuralnetwork,CNN)最先由YannLeCun在1988年提出的一种用于图像处理的前馈式神经网络,由于近几年神经网络的迅速发展,卷 ...
【技术保护点】
1.一种基于神经网络的汉维-维汉机构名词典的挖掘系统,由基于TextCNN模型和LSTM模型的机构名分类器;基于Moses模型,Transformer模型和GNMT模型的机构名翻译模型,融合以上最优的结果,首先对句子进行识别机构名,然后进行选择是否在词典之中,之后利用分类器进行分类,最后利用翻译模型进行反向翻译,获得双语机构名加入词典之中,其特征在于:所述TextCNN模型的分类模型由输入层、卷积层、池化层、全连接层和Softmax层等五层构成;所述输入层将输入序列转换为向量表示,传入网络,故用glove来预训练好词向量;所述卷积层的主要功能是为输入向量中捕获重要的特征信息 ...
【技术特征摘要】
1.一种基于神经网络的汉维-维汉机构名词典的挖掘系统,由基于TextCNN模型和LSTM模型的机构名分类器;基于Moses模型,Transformer模型和GNMT模型的机构名翻译模型,融合以上最优的结果,首先对句子进行识别机构名,然后进行选择是否在词典之中,之后利用分类器进行分类,最后利用翻译模型进行反向翻译,获得双语机构名加入词典之中,其特征在于:所述TextCNN模型的分类模型由输入层、卷积层、池化层、全连接层和Softmax层等五层构成;所述输入层将输入序列转换为向量表示,传入网络,故用glov...
【专利技术属性】
技术研发人员:艾山·吾买尔,徐翠云,斯拉吉艾合麦提·如则麦麦提,刘文其,早克热·卡德尔,买合木提·买买提,汪烈军,刘胜全,
申请(专利权)人:新疆大学,
类型:发明
国别省市:新疆;65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。