【技术实现步骤摘要】
一种基于深度神经网络的汉盲自动转换方法和系统
本专利技术涉及汉语到盲文的自动转换
,特别是使用了深度神经网络进行汉盲转换的领域。
技术介绍
盲文是盲人阅读和获取信息的重要方式。它是一种触觉符号系统,印刷在纸张或显示在点显器上,通过触摸进行阅读。盲文的基本单位称作“方”,一方包含6个点位,通过设置每个点位是否有点共可形成64种组合,这些组合构成了最基本的盲文符号。为了生成盲文内容,需将普通人使用的文字内容转换为盲文。对于字母文字,存在从字母到盲文符号的直接映射,转换相对简单。当前,英语、葡萄牙语、丹麦语、西班牙语、印地语等很多语言到盲文的自动转换,都已有可用的计算机系统。而由于汉语盲文自身的特点,现有的汉语-盲文自动转换系统准确率较低,难以实用。因此,在盲文出版、盲人教育等行业中,目前主要采用人工进行汉盲转换,效率低、成本高,导致盲文读物匮乏、盲人获取信息困难,严重限制了盲人在信息社会的生存和发展。由于不可能将汉字唯一映射到盲文符号,汉语盲文被定义为一种拼音文字。在当前最常用的现行盲文中,一般用2-3方表示一个汉字,其中一方表示声母,一方表示韵母,有些情况还需 ...
【技术保护点】
1.一种基于深度神经网络的汉盲自动转换方法,其特征在于,包括:步骤1、获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;步骤2、获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文。
【技术特征摘要】
1.一种基于深度神经网络的汉盲自动转换方法,其特征在于,包括:步骤1、获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;步骤2、获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文。2.如权利要求1所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该步骤1包括:语料标注步骤,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。3.如权利要求2所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该步骤2包括:分词步骤,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;标调步骤,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;转换步骤,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。4.如权利要求2所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该步骤1中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。5.如权利要求2所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。6.一种基于深度...
【专利技术属性】
技术研发人员:王向东,蔡佳,钱跃良,刘宏,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。