当前位置: 首页 > 专利查询>兰州大学专利>正文

一种基于端到端神经机器翻译的汉盲翻译方法及系统技术方案

技术编号:25398072 阅读:47 留言:0更新日期:2020-08-25 23:02
本发明专利技术涉及一种基于端到端神经机器翻译的汉盲翻译方法及系统,所述方法至少包括:基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型;基于现存未经处理的汉语到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型。本发明专利技术基于端到端深度学习思想,直接绕过分词、标调、合成等多个翻译处理阶段,通过训练较大的端到端神经机器翻译模型进行翻译,能够一步直接得到汉语文本的盲文翻译结果,随着训练数据的不断增加,相比多阶段处理的翻译方式能够在短时间、低成本、系统复杂度降低的情况下显著提高盲文翻译的准确率。

【技术实现步骤摘要】
一种基于端到端神经机器翻译的汉盲翻译方法及系统
本专利技术属于自然语言处理
和面向视力障碍者的人机交互
,尤其涉及自然语言处理
中的汉语文本到盲文的自动转换
,特别是使用端到端深度学习和神经机器翻译实现汉语文本-盲文翻译
,具体涉及一种基于端到端神经机器翻译的汉盲翻译方法及系统。
技术介绍
随着信息化水平的不断提高,信息技术在人们的工作、学习和生活中得到了广泛地应用,而互联网也成为人们日常生活中的一个重要组成部分。网络以一种便捷的方式为人们提供海量的信息资源,同时也为视力障碍者提供一种前所未有的方式感知世界、认识世界、拉近与普通人的距离,使视力障碍者以更平等的视角感受世界。互联网成为视力障碍者的视觉外延,不断地消解城市、生活带给视力障碍者的阻碍。例如,视力障碍者可以借助汉盲翻译系统通过手机的读屏功能(VoiceOver)自由地使用打车软件,可以独立使用淘宝、京东等软件进行网上购物,可以和健全的普通人进行网络游戏,甚至可以写代码,从而拥有更多的就业选择。根据《中国互联网视障用户基本情况报告》,视力障碍者互联网用户30本文档来自技高网...

【技术保护点】
1.一种基于端到端神经机器翻译的汉盲翻译方法,其特征在于,所述方法至少包括:/n基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型(200);/n基于现存未经处理的汉语文本到盲文ASCII码转换的对照语料库(100)训练所述端到端神经机器翻译模型(200)。/n

【技术特征摘要】
1.一种基于端到端神经机器翻译的汉盲翻译方法,其特征在于,所述方法至少包括:
基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型(200);
基于现存未经处理的汉语文本到盲文ASCII码转换的对照语料库(100)训练所述端到端神经机器翻译模型(200)。


2.根据权利要求1所述的汉盲翻译方法,其特征在于,在构建所述端到端神经机器翻译模型(200)的情况下,所述方法还包括如下步骤:
基于所述对照语料库(100)获取关于汉语语料的第一语料以及与所述第一语料对照的用于表示盲文的第二语料;
对所述第一语料和第二语料进行预处理以转换为所述端到端神经机器翻译模型(200)需要的计算机信息,其中,
所述计算机信息至少包括对应所述第一语料的第一字典和对应所述第二语料的第二字典。


3.根据权利要求2所述的汉盲翻译方法,其特征在于,对所述第一语料和第二语料进行预处理以转换为所述端到端神经机器翻译模型(200)需要的计算机信息的步骤至少包括:
遍历所述第一语料和第二语料生成至少包括所述第一字典和所述第二字典的字典;
至少基于中文标点符号和截断长度对所述第一语料和第二语料进行切分,从而分别得到对应所述第一语料的汉语句子和对应所述第二语料的盲文句子,其中,
基于所述第一语料的切分位置信息将所述第二语料切分为对照所述汉语句子的盲文句子,并记录所述汉语句子的第一最大长度和所述盲文句子的第二最大长度;
基于切分后得到的所述汉语句子和盲文句子分别进行标记;
通过所述字典将所述汉语句子和盲文句子转换为数字表示。


4.根据权利要求3所述的汉盲翻译方法,其特征在于,基于切分后得到的所述汉语句子和盲文句子分别进行标记的步骤如下:
在所述汉语句子和盲文句子的首部添加开始标记,并在所述汉语句子和盲文句子的尾部添加结束标记,其中,
在所述汉语句子小于所述第一最大长度和/或所述盲文句子的长度小于所述第二最大长度的情况下,在所述结束标记之后添加补零标记。


5.根据权利要求4所述的汉盲翻译方法,其特征在于,在所述端到端神经机器翻译模型(200)获取预处理的所述第一语料和第二语料的计算机信息后,所述方法执行如下步骤:
所述端到端神经机器翻译模型(200)学习汉语文本到盲文ASCII码直接转换的映射函数;
基于预处理后的所述第一语料和第二语料不断训练得到所述端到端神经机器翻译模型(200)的最优超参数;
基于所述最优超参数调整所述端到端神经机器翻译模型(200)得到训练好的端到端神经机器翻译模型(200)。


6.根据权利要求5所述的汉盲翻译方法,其特征在于,在利用训练好的端到端神经机器翻译模型(200)进行翻译的情况下,所述方法执行如下步骤:
对输...

【专利技术属性】
技术研发人员:苏伟蔡川许存禄林和吴尽昭蒋琪
申请(专利权)人:兰州大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1