一种盲文信息统计系统技术方案

技术编号:18860857 阅读:20 留言:0更新日期:2018-09-05 14:22
本发明专利技术提供了一种盲文信息统计系统,其中三大功能包括盲文翻译成拼音,识别盲文汉语拼音音节、标点符号、阿拉伯数字、以及外文字符等等,统计字数、空方数、词数、平均词长、平均点数,标调率等。能够解决广大盲校教师、学生、非学生盲人对标调规则的修订、国家通用盲文标准修订以及传统的人工方式对现行盲文出版物的标调情况进行大规模的实证统计。

Braille information statistics system

The invention provides a Braille information statistics system, in which the three main functions include the translation of Braille into Pinyin, the identification of Braille Chinese Pinyin syllables, punctuation marks, Arabic numerals, and foreign characters, etc., and the statistics of the number of words, empty squares, the number of words, the average length of words, the average number of points, the rate of tones, etc. It can solve the problem that the teachers, students and non-students of blind schools revise the regulation of Braille adjustment, revise the national general Braille standard and make large-scale empirical statistics on the current Braille publications.

【技术实现步骤摘要】
一种盲文信息统计系统
本专利技术涉及盲文分析数据
,特别涉及一种盲文信息统计系统。
技术介绍
现行盲文制定了“一般不标调,需要时标调”的总原则。这个标调原则本身带有很大的人为随意性,除了有区分音节界限功能的声调必标外,其他声调标与不标没有可操作性的准则,存在很大的不确定性。所有声调的音节不标调都与轻声同形,这种不标调音节的声调可能有5个不同的读音,造成了现行盲文需要根据上下文猜测读音的先天缺陷。现行盲文作为表音文字,标调是一个核心问题。关于现行盲文的标调率唯一能够找到的数据是“所有出版物中平均大约只有5%的音节标了调,这样,就产生了现行盲文必须依赖上下文猜测词的读音与含义的弊病”。然而,这个数据同样是非实证数据,找不到得出这个数据的统计样本、方法和过程。这个数据的科学性不得而知,基于这个数据的后续结论也难免令人生疑。几十年来,我国盲文研究领域一直渴望得到现行盲文出版物标调率的实证数据,这是现行盲文标调研究的基础。没有科学的基础数据,标调问题的其他研究就成了空中楼阁,科学研究就有演变成主观想象的危险。没有这个基础,现行盲文标调研究的出发点都不清楚,更谈不上目标的科学与可达,广大盲校教师、学生、非学生盲人对标调规则的修订、国家通用盲文标准的接受度就难以达到预期。由于盲文出版物的特殊性,传统的人工方式难以对现行盲文出版物的标调情况进行大规模的实证统计。正在建设的汉语盲文语料库可以发挥重要作用,能够提供大量的第一手计算机统计数据,为现行盲文标调实证研究提供了可能。参考文献:《中国特殊教育》2015年第6期(总第180期)公开《基于盲文语料库的现行盲文标调研究》文献,标调是现行盲文的核心问题,实际标调率是核心数据,广为流传的5%标调率不是实证性数据。本研究从正在建设的汉语盲文语料库中随机抽取新世纪以来的383个语篇,约88万字,经过计算机自动处理和人工勘验,发现现行盲文出版物的平均标调率约为11.35%,分半信度系数为0.99。不同类别语篇的标调率差异没有达到显著水平(P=0.912>0.05)。单方音节是影响标调率高低的决定因素。现行盲文标调的重心应当回归到区分同音异调词上,以提高表音的准确性,减少盲生猜谜的现象。但是该文献是半个自动化处理大规模盲文进行诸多的统计,和本申请同样是大规模对盲文进行统计和分析,区别不同的是本申请更全面的统计平均点数,空方数,标调率等,更精确统计出概率。
技术实现思路
为解决上述问题,本专利技术提出一种盲文信息统计系统,能够对现行盲文的基础数据进行自动化统计分析,精确统计出盲文文档字数、空方数、词数、平均词长、平均点数、标调率等,这些基础数据对盲文标调规则的修订、盲文研究、盲文教学等,非常重要。本专利技术提出了一种盲文信息统计系统,包括盲文字体编码模块,还包括以下模块:盲文ASCII码识别模块:用于分割盲文ASCII码和/或标记符号;盲文ASCII码拼音模块:用于把所述盲文ASCII码转换成标准字符;统计模块:用于根据所述盲文ASCII码对应的盲文每方点数进行统计;所述盲文字体编码模块是根据计算机语言把盲文字体编码转换为盲文ASCII码;所述盲文ASCII码识别模块是将所述盲文字体编码模块进行识别标记、特殊符号、盲文分词;所述盲文ASCII码拼音模块是将盲文ASCII码识别模块转换为标准的字符串;所述统计模块是根据盲文ASCII码拼音模块进行统计。本专利技术的盲文信息统计系统实现了盲文自动化统计,解决了人工统计诸多弊端。优选的是,所述盲文字体编码模块用于把盲文字体编码转换为所述盲文ASCII码,以便能够把盲文字体编码转换为计算机认识的语言。在上述任一方案中优选的是,所述盲文ASCII码包括实心盲文ASCII码值和/或空心盲文ASCII码值,使计算机能够识别盲文ASCII码对应的盲文每方点数。在上述任一方案中优选的是,所述实心盲文ASCII码的值=0x41+(盲文字体编码-0xE000),使其计算机能够编译有效范围编码。在上述任一方案中优选的是,所述空心盲文ASCII码的值=0x41+(盲文字体编码-0xE234),使其计算机能够编译有效范围编码。在上述任一方案中优选的是,所述盲文字体编码包括实心字体盲文编码和/或空心字体盲文编码,使其计算机能够识别盲文字体编码对应的盲文ASCII码。在上述任一方案中优选的是,所述实心字体盲文编码的值为0xE000+63,使其计算机能够编译有效范围编码。在上述任一方案中优选的是,所述空心字体盲文编码的值为0xE234+63,使其计算机能够编译有效范围编码。在上述任一方案中优选的是,所述盲文ASCII码识别模块包括一次识别模块和/或二次识别模块,这样能够替代人工翻译和统计操作,减少人工工作量。在上述任一方案中优选的是,所述一次识别模块用于按照盲文分词分割所述盲文ASCII码,以便能够替代人工进行盲文分词。在上述任一方案中优选的是,所述二次识别模块用于识别所述盲文ASCII码的标记符号,以便能够替代人工进行盲文属性做标记符号。在上述任一方案中优选的是,所述标记符号包括数字标记符、大写字母标记符、多个连续大写字母标记符、小写字母标记符和其它字标记符至少一种,这样能够替代人工识别标记符,提高人工统计效率。在上述任一方案中优选的是,所述标准字符包括符号、拼音、盲文和盲文中汉字音节的参数方值至少一种,以便能够将盲文ASCII码转换为对应的盲文方数。在上述任一方案中优选的是,所述参数方值包括参数值1方和/或参数值2方和/或参数值3方,这样能够简化大同小异的盲文音节,提高了识别盲文音节的准确率。在上述任一方案中优选的是,所述盲文ASCII码拼音模块还用于将盲文ASCII码转换成特殊符号处理,以便能够将计算机语言转换为汉语拼音。在上述任一方案中优选的是,所述特殊符号包括中括号、连号和冒号中至少一种,使其符号替代计算机不能识别的符号。在上述任一方案中优选的是,所述统计模块统计的内容包括盲文连写块数和/或盲文空方数和/或平均词长和/或平均标调率和/或字均空方率和/或字均方数和/或字均点数和/或方均点数和/或上行点数和/或中行点数和/或下行点数和/或左列点数和/或右列点数和/或上下结构和/或左右结构,这样能够简化人工统计操作,提高人工统计效率。本专利技术提供了一种盲文信息系统,其优点能够解决传统的人工方式对现行盲文出版物的标调情况进行大规模的实证统计。附图说明图1为本专利技术盲文信息统计系统的盲文翻译到拼音工作方法的一优选实施例的流程图。图2为本专利技术盲文信息统计系统的盲文翻译到拼音系统的一优选实施例的模块图。图2A为本专利技术盲文信息统计系统的如图2所示实施例的二次识别模块的工作方法的流程图。图2B为本专利技术盲文信息统计系统的如图2所示实施例的盲文ASCII码拼音模块的工作方法的流程图。具体实施方式本专利技术是为建设盲文语料库提供了大量的第一手计算机统计的数据,是一个大胆的突破,也是对盲文研究提供了研究证实。下面结合具体实施例及附图对盲文信息统计系统的技术方案进行详细描述,以使其更加清楚。实施例1如图1、如图2所述,一种盲文信息统计系统,包括以下的模块:模块1040:盲文字体编码模块;模块1050:盲文ASCII码识别模块,包括一次识别模块1051和二次识别模块1052;模块1060:盲文A本文档来自技高网
...

【技术保护点】
1.一种盲文信息统计系统,包括盲文字体编码模块,其特征在于,还包括以下模块:盲文ASCII码识别模块:用于分割盲文ASCII码和/或标记符号;盲文ASCII码拼音模块:用于把所述盲文ASCII码转换成标准字符;统计模块:用于根据所述盲文ASCII码对应的盲文每方点数进行统计;所述盲文字体编码模块是根据计算机语言把盲文字体编码转换为盲文ASCII码;所述盲文ASCII码识别模块是将所述盲文字体编码模块进行识别标记、特殊符号、盲文分词;所述盲文ASCII码拼音模块是将盲文ASCII码识别模块转换为标准的字符串;所述统计模块是根据盲文ASCII码拼音模块进行统计。

【技术特征摘要】
1.一种盲文信息统计系统,包括盲文字体编码模块,其特征在于,还包括以下模块:盲文ASCII码识别模块:用于分割盲文ASCII码和/或标记符号;盲文ASCII码拼音模块:用于把所述盲文ASCII码转换成标准字符;统计模块:用于根据所述盲文ASCII码对应的盲文每方点数进行统计;所述盲文字体编码模块是根据计算机语言把盲文字体编码转换为盲文ASCII码;所述盲文ASCII码识别模块是将所述盲文字体编码模块进行识别标记、特殊符号、盲文分词;所述盲文ASCII码拼音模块是将盲文ASCII码识别模块转换为标准的字符串;所述统计模块是根据盲文ASCII码拼音模块进行统计。2.如权利要求1所述的盲文信息统计系统,其特征在于:所述盲文字体编码模块用于把盲文字体编码转换为所述盲文ASCII码。3.如权利要求2所述的盲文信息统计系统,其特征在于:所述盲文ASCII码包括实心盲文ASCII码值和/或空心盲文A...

【专利技术属性】
技术研发人员:钟经华孙岩关忠李妍刘志丽阎嘉
申请(专利权)人:北京联合大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1