当前位置: 首页 > 专利查询>新疆大学专利>正文

一种混合多种策略的汉语-维吾尔人名翻译系统技术方案

技术编号:24800234 阅读:82 留言:0更新日期:2020-07-07 21:09
本发明专利技术公开了一种混合多种策略的汉语‑维吾尔人名翻译系统,由基于TextCNN模型的人名分类器、基于Transformer模型、GNMT神经机器音译模型、所述多头注意力使模型,基于规则和词典的音译方法,所述基于TextCNN模型的人名分类器由输入层、卷积层、池化层、全连接层和Softmax层等五层构成;所述输入层将输入序列转换为向量表示传入网络;所述卷积层的主要功能为输入向量中捕获重要的特征信息,因此从人名分类任务和卷积层的工作流程考虑,网络的内核分别设置为2,3,4。该发明专利技术提供一种混合多种策略的汉语‑维吾尔人名翻译系统,形成一种基于词典、规则和神经网络的机器音译模型。借助多种方法的优点、采用不同的方法提高模型的准确度。

【技术实现步骤摘要】
一种混合多种策略的汉语-维吾尔人名翻译系统
本专利技术属于机器音译
,具体涉及一种混合多种策略的汉语-维吾尔人名翻译系统。
技术介绍
机器音译(MachineTransliteration)是通过机器将单词按发音转换为另一种语言的过程。机器音译作为机器翻译(MachineTranslation)的不可缺少的一部分受到了众多研究者的注意。机器翻译方法至今经历四次重大改变:最初的基于规则的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法和机器和神经机器翻译方法。随着翻译方法的更新,翻译性能也在不断地提升。机器音译不同于机器翻译,机器翻译根据单词的语义将单词一种语言翻译成另一种语言,而机器音译是按照单词的读音将单词一种语言转换成另一种语言的过程。最初的基于规则的音译方法先对两种语言之间规定单词音译的规则,这种方法的缺点除了需要知道互相转译的两种语言,还需要发现两种语言之间的规则。基于实例和基于统计的方法需要大量的语料才能达到高质量的音译结果,然而人工收集语料的时间长、成本也相对昂贵。基于神经网络的方法相较于前三个方法存在不需本文档来自技高网...

【技术保护点】
1.一种混合多种策略的汉语-维吾尔人名翻译系统,由基于TextCNN模型的人名分类器、基于Transformer模型、GNMT神经机器音译模型、所述多头注意力使模型,基于规则和词典的音译方法,融合以上方案先对输入进行分类是否能规则转译或者神经网络模型转译,其次用相应的方法对输入进行音译,其特征在于:所述基于TextCNN模型的人名分类器由输入层、卷积层、池化层、全连接层和Softmax层等五层构成;所述输入层将输入序列转换为向量表示传入网络;所述卷积层的主要功能为输入向量中捕获重要的特征信息,因此从人名分类任务和卷积层的工作流程考虑,网络的内核分别设置为2,3,4;所述音译任务的一个特点是输入...

【技术特征摘要】
1.一种混合多种策略的汉语-维吾尔人名翻译系统,由基于TextCNN模型的人名分类器、基于Transformer模型、GNMT神经机器音译模型、所述多头注意力使模型,基于规则和词典的音译方法,融合以上方案先对输入进行分类是否能规则转译或者神经网络模型转译,其次用相应的方法对输入进行音译,其特征在于:所述基于TextCNN模型的人名分类器由输入层、卷积层、池化层、全连接层和Softmax层等五层构成;所述输入层将输入序列转换为向量表示传入网络;所述卷积层的主要功能为输入向量中捕获重要的特征信息,因此从人名分类任务和卷积层的工作流程考虑,网络的内核分别设置为2,3,4;所述音译任务的一个特点是输入序列短,并其使用的中文数据长度2个字符到9个字符,目标端维文数据3个字符到17个字符,防止数据过短,模型捕获不到相关信息,对数据进行进一步细切分,中文端按字符和双字节编码(BytePai...

【专利技术属性】
技术研发人员:艾山·吾买尔西热艾力·海热拉徐翠云刘文其宜年早克热·卡德尔买合木提·买买提汪烈军刘胜全
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1