一种通用盲文到汉字的转换方法及系统技术方案

技术编号:34717783 阅读:31 留言:0更新日期:2022-08-31 18:01
本发明专利技术提出一种通用盲文到汉字的转换方法和系统,其特征在于,包括:构建深度学习模型,由通用盲文文本生成拼音音节序列和分词标记序列,经由深度学习模型的嵌入层向量化后拼接得到融合盲文分词信息的拼音嵌入向量,分别输入深度学习模型的局部语义特征提取层和全局语义特征提取层;得到局部语义信息和上下文语义信息,将两者拼接后输入全连接层得到通用盲文文本对应的汉字文本。本发明专利技术通过拼音音节嵌入与分词信息嵌入拼接为一个总体的嵌入向量,以及局部语义特征提取层和全局语义特征提取层共享嵌入层结合的特征提取模块,实现了高准确率的通用盲文

【技术实现步骤摘要】
一种通用盲文到汉字的转换方法及系统


[0001]本专利技术涉及盲文处理
,特别是通用盲文到汉字的自动转换领域。

技术介绍

[0002]盲文是盲人阅读和获取信息的重要方式。它是一种触觉符号系统,印刷在纸张或显示在点显器上,通过触摸进行阅读。盲文的基本单位称作“方”,一方包含6个点位,通过设置每个点位是否有点共可形成64种组合(包括6个点位都没有点的空方),这些组合构成了最基本的盲文符号。
[0003]为了促进盲人与普通人的交流与沟通,需将盲人使用的盲文转换为汉字。对于字母文字,存在字母与盲文符号的直接映射,转换相对简单。而由于汉语盲文自身的特点,盲文

汉字自动转换难度较大。
[0004]由于盲文符号与汉字之间没有一一对应关系,汉语盲文被定义为一种拼音文字。在汉语盲文中,大多数情况下用2

3方表示一个汉字,其中一方表示声母,一方表示韵母,有些情况还需要再增加一方表示声调。汉语盲文与汉字文本最大的区别在于及其“分词连写”规则,即要求词与词之间用空方分隔。盲文分词与汉语分词不同,许多汉语中的短语在盲文中需要连写。针对分词连写,中国盲文标准中给出了100多条基于词法、语法和语义的细则,如
“‘


与动词、能愿动词、形容词、介词、单音节程度副词均应连写”等。
[0005]为了进一步减少歧义,盲文还制定了标调规则,即规定哪些音节需要显式地标出声调。当前主要有两种盲文方案在使用中,即“现行盲文”和“通用盲文”。两种盲文方案的分词规则相同,主要区别在于标调规则。在现行盲文中,为节省阅读时间和印刷成本,规定只对易混淆的词语、生疏词语、古汉语实词、非常用的单音节词等标调。一般认为现行盲文的标调率大约在5%左右。但是大量未标调的音节容易造成混淆,影响阅读和理解。因此,国家语委在2018年发布了“通用盲文”方案,通用盲文中虽然采用了一定的声调缺省设置,但是经过缺省规则转换,绝大多数音节都可确定声调。从2018年发布之日起,国家开始大力推广通用盲文,但是,由于目前缺乏通用盲文到汉字自动转换的工具和系统,而人工转换效率很低,导致目前盲人与普通人的文字交流存在障碍。
[0006]当前虽然已有一些汉字到盲文的自动转换系统,有些已经投入实用,但这些系统大多以汉字到现行盲文的转换为主,能够实现通用盲文到汉字转换的系统较少。

技术实现思路

[0007]针对目前通用盲文到汉字的转换研究较少、未充分利用盲文分词信息等问题,本专利技术采用通用盲文

汉字对照语料及标记盲文分词信息的拼音

汉字对照语料,训练一个深度学习模型实现高效率和高准确的通用盲文到汉字转换。
[0008]具体来说,本专利技术提出了一种通用盲文到汉字的转换方法,其中包括:
[0009]步骤1、构建包括局部语义特征提取层和全局语义特征提取层的深度学习模型,获取待转换的通用盲文文本,且该局部语义特征提取层和该全局语义特征提取层共享嵌入层
和全连接层;
[0010]步骤2、由该通用盲文文本生成拼音音节序列和分词标记序列,经由嵌入层向量化后拼接得到融合盲文分词信息的拼音嵌入向量,分别输入该局部语义特征提取层和该全局语义特征提取层;
[0011]步骤3、该局部语义特征提取层提取该拼音嵌入向量的局部语义信息,该全局语义特征提取层提取该拼音嵌入向量中具有时序关系的上下文语义信息,将该局部语义信息和该上下文语义信息拼接后输入全连接层得到该通用盲文文本对应的汉字文本。
[0012]所述的通用盲文到汉字的转换方法,其中该深度学习模型的训练过程为将通用盲文

汉字对照语料分为多批数据,每批数据包括多条数据,每条数据均包含:拼音音节序列、分词标记序列、拼音对应的汉字文本;以该批数据的拼音音节序列和分词标记序列作为输入,得到该深度学习模型的预测汉字文本,根据该预测汉字文本和该拼音对应的汉字文本构建损失函数,通过反向传播更新该深度学习模型;
[0013]采用拼音

汉字对照语料微调更新完成的深度学习模型,在该拼音

汉字对照语料中,每条拼音文本有其对应的汉字文本;拼音按照通用盲文标调标准转换为省写音调的拼音,包括音节和声调,声调标记为:1表示阴平,2表示阳平,3表示上声,4表示去声,无音调表示轻声或声调被省写;采用一个盲文分词系统根据汉字和拼音信息自动得到盲文分词信息,得到标记分词信息的该拼音

汉字对照语料。
[0014]所述的通用盲文到汉字的转换方法,其中该分词标记序列基于BMES四位序列标注表示该拼音音节序列中各拼音音节的分词信息,其中B表示拼音音节对应盲文词的首位置;M表示拼音音节对应盲文词的中间位置;E表示拼音音节对应盲文词的末尾位置;S表示拼音音节对应一个单独的字。
[0015]所述的通用盲文到汉字的转换方法,其中该局部语义特征提取层包括三种不同高度的卷积核,高度分别为1、3和5,每种高度分别有两个卷积核,每个卷积核通过对该拼音嵌入向量做卷积运算得到特征向量,最终得到融合6个特征空间的特征向量,得到局部语义信息;该全局语义特征提取层采用双向门控循环单元网络实现该上下文语义信息的抓取。
[0016]本专利技术还提出了一种通用盲文到汉字的转换系统,其中包括:
[0017]模型构建模块,用于构建包括局部语义特征提取层和全局语义特征提取层的深度学习模型,获取待转换的通用盲文文本,且该局部语义特征提取层和该全局语义特征提取层共享嵌入层和全连接层;
[0018]预处理模块,用于由该通用盲文文本生成拼音音节序列和分词标记序列,经由嵌入层向量化后拼接得到融合盲文分词信息的拼音嵌入向量,分别输入该局部语义特征提取层和该全局语义特征提取层;
[0019]特征拼接模块,用于该局部语义特征提取层提取该拼音嵌入向量的局部语义信息,该全局语义特征提取层提取该拼音嵌入向量中具有时序关系的上下文语义信息,将该局部语义信息和该上下文语义信息拼接后输入全连接层得到该通用盲文文本对应的汉字文本。
[0020]所述的通用盲文到汉字的转换系统,其中该深度学习模型的训练过程为将通用盲文

汉字对照语料分为多批数据,每批数据包括多条数据,每条数据均包含:拼音音节序列、分词标记序列、拼音对应的汉字文本;以该批数据的拼音音节序列和分词标记序列作为输
入,得到该深度学习模型的预测汉字文本,根据该预测汉字文本和该拼音对应的汉字文本构建损失函数,通过反向传播更新该深度学习模型;
[0021]采用拼音

汉字对照语料微调更新完成的深度学习模型,在该拼音

汉字对照语料中,每条拼音文本有其对应的汉字文本;拼音按照通用盲文标调标准转换为省写音调的拼音,包括音节和声调,声调标记为:1表示阴平,2表示阳平,3表示上声,4表示去声,无音调表示轻声或声调被省写;采用一个盲文分词系统根据汉字和拼音信息自动得到盲文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用盲文到汉字的转换方法,其特征在于,包括:步骤1、构建包括局部语义特征提取层和全局语义特征提取层的深度学习模型,获取待转换的通用盲文文本,且该局部语义特征提取层和该全局语义特征提取层共享嵌入层和全连接层;步骤2、由该通用盲文文本生成拼音音节序列和分词标记序列,经由嵌入层向量化后拼接得到融合盲文分词信息的拼音嵌入向量,分别输入该局部语义特征提取层和该全局语义特征提取层;步骤3、该局部语义特征提取层提取该拼音嵌入向量的局部语义信息,该全局语义特征提取层提取该拼音嵌入向量中具有时序关系的上下文语义信息,将该局部语义信息和该上下文语义信息拼接后输入全连接层得到该通用盲文文本对应的汉字文本。2.如权利要求1所述的通用盲文到汉字的转换方法,其特征在于,该深度学习模型的训练过程为将通用盲文

汉字对照语料分为多批数据,每批数据包括多条数据,每条数据均包含:拼音音节序列、分词标记序列、拼音对应的汉字文本;以该批数据的拼音音节序列和分词标记序列作为输入,得到该深度学习模型的预测汉字文本,根据该预测汉字文本和该拼音对应的汉字文本构建损失函数,通过反向传播更新该深度学习模型;采用拼音

汉字对照语料微调更新完成的深度学习模型,在该拼音

汉字对照语料中,每条拼音文本有其对应的汉字文本;拼音按照通用盲文标调标准转换为省写音调的拼音,包括音节和声调,声调标记为:1表示阴平,2表示阳平,3表示上声,4表示去声,无音调表示轻声或声调被省写;采用一个盲文分词系统根据汉字和拼音信息自动得到盲文分词信息,得到标记分词信息的该拼音

汉字对照语料。3.如权利要求1所述的通用盲文到汉字的转换方法,其特征在于,该分词标记序列基于BMES四位序列标注表示该拼音音节序列中各拼音音节的分词信息,其中B表示拼音音节对应盲文词的首位置;M表示拼音音节对应盲文词的中间位置;E表示拼音音节对应盲文词的末尾位置;S表示拼音音节对应一个单独的字。4.如权利要求1所述的通用盲文到汉字的转换方法,其特征在于,该局部语义特征提取层包括三种不同高度的卷积核,高度分别为1、3和5,每种高度分别有两个卷积核,每个卷积核通过对该拼音嵌入向量做卷积运算得到特征向量,最终得到融合6个特征空间的特征向量,得到局部语义信息;该全局语义特征提取层采用双向门控循环单元网络实现该上下文语义信息的抓取。5.一种通用盲文到汉字的转换系统,其特征在于,包括:模型构建模块,用于构建包括局部语义特征提取层和全局语义特征...

【专利技术属性】
技术研发人员:王向东姚鑫刘宏钱跃良
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1