当前位置: 首页 > 专利查询>清华大学专利>正文

汉语盲文到汉字的自动转换方法技术

技术编号:2883377 阅读:363 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于计算机文字处理技术领域,其特征在于,将盲文书籍扫描后识别盲文,或用键盘将盲文输入后,将盲文通过拼音的概念转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换。使得系统整体转换正确率达到97%以上。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术属于计算机文字处理
,特别涉及盲人用计算机的文字转换技术。盲人使用盲文(摸读的点字符号)进行文化学习与信息交流。目前在国外一些发达国家中,已经研究出较好的盲人用计算机及其操作平台。英国已研制出盲人用的计算机,其键盘各键是由大小、形状、纹理不一,每键均带有发声机制的多媒体信息交互功能。在中国,近年来为了使盲人能够使用计算机及能够阅读普通文本也作了一些局部的工作,如中国盲文书社在中国残疾人联合会和中国盲人协会的资助支持下,研制出盲文分词连写系统;北京图书馆在Dos操作系统下研究过盲人阅读机,是将印刷体普通汉字文本通过扫描输入计算机进行识别,再将识别的汉字转换成声音由计算机输出;使盲人能够听到普通文本;清华大学自动化系研究过盲人用键盘输入法,用声音帮助选字,及在Dos下的汉字盲文转换。上述已有技术的不足之处包括一、在汉语盲文与汉字的转换中没有应用自然语言理解处理技术。二、在已公开的汉字识别后处理技术中,为了提高识别文本的正确率,用Viterbi动态规划算法来快速搜索一条最佳路径,而进入同一个结点的其余的路径便被舍弃。不能找出次最优的汉语句子。三、已公开系统只涉及汉语盲文和汉字的相互转换,不支持其它诸如数学公式等符号的相互转换。四、已公开的盲文转换只涉及双拼盲文,而没有现行盲文处理功能。本专利技术的目的是为克服已有技术的不足之处,提出一种。使用该方法,盲文可以由键盘和扫描仪两种方式输入。对盲文的标调没有严格限制可以输入英文,数字。同时可以追加任意的特殊符号。已建立了数学库,可在文档中输入数学符号。同时可以根据需要加入其它特殊字库,转换正确率高。本专利技术提出的一种,其特征在于,将盲文书籍扫描后识别盲文,或用键盘将盲文输入后,将盲文通过拼音的概念转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换。所说的汉语盲文综合知识库包括电子字典、规则库和统计信息库(由统计大规模真实语料得到的邻接词同现概率库)。本专利技术所述,包括以下具体步骤1)读入未转换文本头部的全部连续非盲文点字符号;2)当前的输入点字符号是否表示非汉字意义,若表示汉字,转步骤4;若表示非汉字,在viterbi搜索图中搜索N-best路径并选择最好路径,得到转换结果,并将开始读入的非盲文点字符号插入到对应位置;3)记录本句的转换结果,记录表示非汉字意义的输入点字符号的转换结果,清空viterbi搜索图,转入步骤5;4)查找当前输入的点字符号能够匹配的所有汉字词候选,并在viterbi搜索图中构造相应结点。5)判断是否全部转换完毕?若是,输出转换后汉字结果;若不是,转步骤1。本专利技术的特点是由于盲文扫描识别或盲文码输入不可能达到100%正确,双面扫描盲文的识别错误率更高。同时,也是更重要的是由于汉字特有的一字多音、一音多字性质,以及自然语言的歧义现象,在将扫描盲文或盲文码输入与拼音的转换,拼音与汉字转换的每一个环节,均可能发生歧义或转换错误,因此本专利技术利用汉语盲文综合知识库包括电子字典、规则库和统计信息库(由统计大规模真实语料得到的邻接词同现概率库),在带权的拼音到汉字转换多部图上采用N-Best搜索算法,来实现由盲文到汉字的自动转换。本专利技术具有以下效果1.盲文可以由键盘和扫描仪两种方式输入。2.对盲文的标调没有严格限制。例如“公园”可写作gonglyuan2;gonglyuan;gongyuan2;gongyuan四种方式。3.可以输入英文,数字。同时可以追加任意的特殊符号。4.已建立了数学库,可在文档中输入数学符号。同时可以根据需要加入其它特殊字库,如化学、物理等。5.转换正确率高。附图简要说明附图说明图1为本专利技术的汉语盲文到汉字的自动转换具体方法流程图。图2为本专利技术的带转移概率权重的拼音到汉字转换搜索图。以下结合实施例对本专利技术的实现方法详细进行说明。本专利技术所述汉语盲文到汉字的自动转换具体实施方法,如图1所示,包括以下步骤1)读入未转换文本头部的全部连续非盲文点字符号;2)当前的输入点字符号是否表示非汉字意义,若表示汉字,转步骤4;若表示非汉字,在viterbi搜索图中搜索N-best路径并选择最好路径,得到转换结果,并将开始读入的非盲文点字符号插入到对应位置;3)记录本句的转换结果,记录表示非汉字意义的输入点字符号的转换结果,清空viterbi搜索图,转入步骤5;4)查找当前输入的点字符号能够匹配的所有汉字词候选,并在viterbi搜索图中构造相应结点。5)判断是否全部转换完毕?若是,输出转换后汉字结果;若不是,转步骤1。本专利技术中所应用的算法说明如下1.N-Best搜索算法图2为本专利技术的带转移概率权重的拼音到汉字转换搜索图。图中,假设某一个拼音句子Y由T个字构成,Y=y1y2…yT。在这个句子的前后各加上分界符,构成#y1,y2,...,yT#。设拼音yi对应的汉字词候选为Ci,1Ci,2...Ci,ui]]>。在带转移概率权重的拼音到汉字转换搜索图中对与yi对应的每一个汉字词候选都构造一个结点,所有与yi对应的结点构成一级。带转移概率权重的拼音到汉字转换搜索图中级与级之间是全连接的关系,即第i级的每一个结点与第i+1级的每一个结点之间都有一条边。边上的权为后一级汉字词在前一级汉字后出现的条件概率(同现概率)。在带转移概率权重的拼音到汉字转换搜索图中,每一条边都是带权边。例如,C11与C21之间边上的权为P(C21|C11),表示C11后出现C21的条件概率。在两个分界符之间的任意找一条路径,其中所有边的权重乘积就是该路径对应转换方案的概率值。搜索具有最大概率值的转换方案就是在带转移概率权重的拼音到汉字转换搜索图中搜索一条边权重乘积最大的路径,路径上的结点就表示了对应的转换方案。N-Best搜索算法可在图2中找出具有前N大次最优的汉语句子。该搜索方法分为前向和后向两个过程。在前向过程中,对图中每一个结点,计算由初始结点到此结点的最佳路径,并且记录此最佳路径的累计分值和指向路径上前一个结点的指针。在后向过程中,通过比较进入终止结点的路径就可以得到最优路径。然后,为了使求次优路径时不会又选到最佳路径,把最佳路径整个复制到一个所谓N-Best树的结构中。对N-Best树中的每一个结点计算后向累计分值。后向累计分值与前向累计分值相结合,使之能够快速方便地计算出某一条路径的总分值。对N-Best树上的所有结点进行扩展,比较扩展后所有路径的分值,最大的那个就是次优路径。然后把次优路径与最优路径不同的部分复制到N-Best树中。接着计算新加入结点的后向累计分值。假设前N选路径已经求出,那么第N+1选路径可以通过比较从当前N-Best树中扩展出的路径来求得。从此算法可以看出,N-Best树结构保证了任何一条路径不会被考虑两次。而且,此算法也是一个精确的算法,即能够准确的找出前N个大似然度的N个汉语句子。使用N-Best算法使盲文到汉字的转换正确率得到提高。但是,N-Best对于算法影响转换速度。因此只有当系统认为最优选的汉语句子中存在着转换错误时,才自动进行N-Best搜索。特点用该方法完成的系统是国内本文档来自技高网...

【技术保护点】
一种汉语盲文到汉字的自动转换方法,其特征在于,将盲文书籍扫描后识别盲文,或用键盘将盲文输入后,将盲文通过拼音的概念转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:朱小燕江铭虎夏莹马少平姜哲包塔谭刚
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1