当前位置: 首页 > 专利查询>兰州大学专利>正文

一种基于Transformer的汉盲翻译方法及系统技术方案

技术编号:25398059 阅读:30 留言:0更新日期:2020-08-25 23:02
本发明专利技术涉及一种基于Transformer的汉盲翻译方法及系统,所述方法至少包括:基于现有句子级对应的汉盲数字资源训练翻译模型;基于Transformer构建以句子为单位将汉语文本直接转换为盲文ASCII码的所述翻译模型,其中,所述翻译模型基于多头自注意力机制至少将输入、输出、输入‑输出的信息关联的方式学习所述汉盲数字资源。本发明专利技术以句子为单位进行翻译,不需要构建词语级精确对应的汉盲对照语料库,使得本发明专利技术能够直接利用现存的汉盲数字资源,只需要经过句子切分处理就能使用,从而建设难度小、耗时短,显著地降低了构建语料库的成本。

【技术实现步骤摘要】
一种基于Transformer的汉盲翻译方法及系统
本专利技术涉及汉语文本到盲文的自动翻译
,特别是使用基于Transformer实现汉语文本-盲文翻译
,具体涉及一种基于Transformer的汉盲翻译方法及系统。
技术介绍
盲文(Braille)是指专为盲人设计、供盲人使用的、靠触觉感知的文字,是中国语言文字的重要组成部分。汉语到盲文的翻译系统,是将已有的汉语资源转换为盲文资源,最终生成盲文文档,可以供各种盲文系统使用。盲文最基本的盲文符号为盲文点字,由6个点组成,根据点的填充与否可形成64种变化,即64个点符(盲符)。计算机中也可用盲文ASCII码表示盲文,即64个点符对应64个盲文ASCII码(单个ASCII字符)。盲文ASCII码极大地方便盲文处理,并且是盲人点显器、盲文刻印机等设备的标准输入。中国目前使用三种盲文:现行盲文、双拼盲文、国家通用盲文。现行盲文方案(简称“现行盲文”)是1953年由教育部颁布并在全国推行的盲文方案。该方案是以北京语音为标准,以普通话为基础,以词为单位,以声、韵、调三方表示一个完整音节,采用盲文分词连写规则记录汉语的一套盲文方案。现行盲文具有易学易用的优点,存在标调不够规范的缺陷。汉语双拼盲文方案(简称“双拼盲文”)是1988年由国家语言文字工作委员会试行推广的盲文改革方案。方案可在两方盲符内表示汉语声、韵、调三要素,整个体系包括:字母表、标点符号、同音分化法、简写法、哑音定字法等,同时也采用盲文分词连写规则。汉语双拼盲文方案旨在克服现行盲文的缺点,但因符形类别多、规则繁难,较现行盲文难学,只被部分盲人接受。2018年,教育部、国家语委、中国残联共同发布了《国家通用盲文方案》。国家通用盲文方案(简称“国家通用盲文”)沿用现行盲文的声母、韵母、声调、标点符号等。为了用盲文准确阅读、规范书写国家通用语言,充分体现我国国家通用语言音节带调的特点,该方案确立了全部音节标调的总原则,废止了需要时标调体系。该方案提出了按声母省写声调符号的规范,确定了一些汉字的简写形式,以减少盲文篇幅。该方案解决了阅读盲文时猜测读音问题,提高了盲文的表意功能,将大力促进盲人教育、文化事业的发展,为盲文信息化、盲人无障碍信息交流提供保障。中国盲人阅读物存在数量稀缺、种类稀少等问题。我国视力残疾人总数约为1731万人,我国每位明眼人每年平均占有10种出版物,盲人只平均占有0.36种。盲文读物存在专业制作人士数量少,制作难度大,资金有限,盲文出版物成本高的问题。由于汉盲翻译软件欠缺、技术落后,现如今的网络对照语料库存在无法满足视障者学习、生活、工作需求的问题。当前,英语、葡萄牙语、丹麦语、西班牙语、印地等语言的文本到其相应的盲文文本的自动转换都已有可用的计算机系统。而在汉语中,还不能将汉字唯一映射到盲文符号。汉语盲文被定义为一种拼音文字,并且还定义了分词连写和标调等规则。汉语盲文一般用2~3方表示一个汉字,其中一方表示声母,一方表示韵母,现行盲文和通用盲文中有些情况需要再增加一方表示声调。汉语盲文与汉语文本最大的区别在于盲文的“分词连写”规则,即要求词与词之间用空方分隔。其中分词是将一个汉字序列切分成一个个单独的词。所谓连写,即是按照盲文的特殊性,避免音节结构过于松散,便于摸读和理解,使词意迅速形成概念,将意义上结合得较为紧密的一些词连写在一起。盲文分词与中文标准分词有着显著差异。中文标准分词规范中四字成语或习惯用语为一个切分单位,而中国盲文中四字成语,能独立分写时,应按词分写。中文标准分词不将标点符号考虑在内,将其分为单个字,但盲文标点符号书写也具有分词和连写的特殊规则,如逗号、顿号、分号、冒号前面均不空方,后面空一方,句号、问号、叹号前后均不空方。为减少单音节词可能带来的歧义,许多汉语中的短语在盲文中需要连写,例如,“王老师”、“大红花”、“不能”等都需要连写。汉盲翻译技术的另一大难点是汉盲翻译的规则繁多。国家通用盲文规范了盲文的标调、省写和简写规则,如声母为f的音节,阴平符号省写;当“的、么、你、他、它”后面连写韵母自成的音节时,一律不简写。双拼盲文和通用盲文中几乎每个字都可确定声调。而在现行盲文中,为节省阅读时间和印刷成本,规定只对易混淆的词语、生疏词语、古汉语诗词、非常用的单音节词等标调,一般认为现行盲文的标调率大约在5%。针对分词连写,中国盲文标准中给出了100多条基于词法、语法和语义的细则,如“‘不’与动词、能愿动词、形容词、介词、单音节程度副词均应连写”。可以看出,汉盲翻译的关键在于分词和标调。当前汉盲翻译主要遵循两种思路,一种是按照盲文分词连写本身的逻辑,首先对文本进行汉语分词,然后使用预定义的规则对汉语分词结果进行调整,将汉语词串转换为盲文词串。当前大多数研究都基于这一思路,但是盲文分词连写涉及主观性很强的语法和语义规则,计算机定义和处理都很困难,导致这种方法的性能存在瓶颈,难以进一步提升。第二种思路是从盲文语料中提取出现过的连词组合,建立分词连写库,然后基于分词连写库进行文本分词或对汉语分词结果进行后处理。但是盲文将汉语中的许多短语连写,所形成的连写组合是无限的,无法通过分词连写库穷举。因此这一方法性能有限,目前主要和第一种方法结合,作为一种补充式的处理操作使用。例如,文献[1]XiangdongWang,YangYang,HongLiu,等.Chinese-BrailleTranslationBasedonBrailleCorpus[J].InternationalJournalofAdvancedPervasive&UbiquitousComputing,2016,8(2):56-63.公开了基于机器学习的盲文直接分词框架,不再基于汉语分词结果进行后处理,而是利用训练好的盲文分词模型直接对盲文串进行分词。这种方法采用机器学习模型隐含地刻画盲文分词连写规范,避免了计算机直接处理复杂的语法和语义规则。实验结果表明,此方法可大大提升汉盲转换的准确率。但是,一方面该方法基于感知机模型,而近年来,深度学习技术在很多领域已逐步替代感知和统计机器学习等传统方法;另一方面,模型训练基于盲文语料,而盲文只表示汉字的读音(且大多数不加声调),导致可能因同音产生歧义,进而影响最终的分词结果。如果采用按照盲文规则分词的汉字文本作为训练语料,则可以避免上述问题。但是要得到按照盲文规则分词的汉字文本语料,相当于将汉字文本及与其对应的盲文文本进行词语级对齐,即需要建设一个词语级对照的汉盲语料库。例如,公开号为CN1093344389A的中国专利文献公开了一种汉盲对照双语语料库的构建方法和系统,该方法包括:获取内容相同的汉语文本和盲文文本;分别将该盲文文本和该汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成果的汉语句子和盲文句子;将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。事实上,该专利公开本文档来自技高网...

【技术保护点】
1.一种基于Transformer的汉盲翻译方法,其特征在于,所述方法至少包括:/n基于现有句子级对应的汉盲数字资源(10)训练翻译模型(20);/n基于Transformer构建以句子为单位的将汉语文本直接转换为盲文ASCII码的所述翻译模型(20),其中,/n所述翻译模型(20)基于多头自注意力机制以至少将输入、输出、输入-输出的信息关联的方式学习所述汉盲数字资源(10)。/n

【技术特征摘要】
1.一种基于Transformer的汉盲翻译方法,其特征在于,所述方法至少包括:
基于现有句子级对应的汉盲数字资源(10)训练翻译模型(20);
基于Transformer构建以句子为单位的将汉语文本直接转换为盲文ASCII码的所述翻译模型(20),其中,
所述翻译模型(20)基于多头自注意力机制以至少将输入、输出、输入-输出的信息关联的方式学习所述汉盲数字资源(10)。


2.根据权利要求1所述的汉盲翻译方法,其特征在于,基于现有句子级对应的汉盲数字资源(10)训练翻译模型(20)的步骤至少包括:
基于所述汉盲数字资源(10)获取汉语语料和与所述汉语语料对照的盲文ASCII码语料或盲文点字语料;
对所述汉语语料、盲文ASCII码语料或盲文点字语料进行预处理以转换为所述翻译模型(20)需要的句子信息,其中,
所述句子信息至少包括汉语文本和盲文文本的句子切分信息。


3.根据权利要求2所述的汉盲翻译方法,其特征在于,所述预处理步骤至少包括:
至少基于中文标点符号和截断长度对所述汉语语料进行切分,从而得到对应所述汉语语料的第一句子和对应所述第一句子的第一最大长度;
基于所述汉语句子的切分信息对所述盲文ASCII码语料或盲文点字语料进行切分,从而得到对应所述盲文ASCII码语料或盲文点字语料的第二句子和对应所述第二句子的第二最大长度;
对所述第一句子和第二句子分别进行标记;
通过字典将标记后的第一句子和第二句子转换为数字信息。


4.根据权利要求3所述的汉盲翻译方法,其特征在于,对所述第一句子和第二句子分别进行标记的步骤如下:
在所述第一句子的首部添加第一标记,并在第二句子的首部添加第一映射标记;
在所述第一句子的尾部添加第二标记,并在第二句子的尾部添加第二映射标记,其中,
在所述第一句子的长度小于所述第一最大长度的情况下,在所述第二标记之后添加第三标记;
在所述第二句子的长度小于所述第二最大长度的情况下,在所述第二映射标记之后添加第三映射标记。


5.根据权利要求4所述的汉盲翻译方法,其特征在于,通过字典将标记后的第一句子和第二句子转换为数字信息的步骤如下:
基于所述汉语语料生成汉语字典;
基于所述盲文ASCII码语料或盲文点字语料生成盲文字典,其中,
所述汉语字典的至少三个键分别对应所述第一标记、第二...

【专利技术属性】
技术研发人员:苏伟吴尽昭张久文林和许存禄蒋琪
申请(专利权)人:兰州大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1