一种校正输入中文拼写的方法技术

技术编号:7486706 阅读:204 留言:0更新日期:2012-07-09 20:59
本发明专利技术公开了一种校正输入中文拼写的方法,本发明专利技术把计算机的汉语文本通过标点符号和非汉字字符串作为节点,切分成若干个子句,然后再以代词、助词、连词作为每个子句的节点,把子句切分成几个字长大于等于2小于等于8的词单元,在后台把这些词单元转换成汉语拼音,然后与相同字长的语料库的词组拼音进行循环字长递减匹配,直到找到与要校正的词单元相同拼音的全部词组,然后在进行字的匹配,如果符合条件字的匹配率大于等于0.5小于1,那么就把该词单元筛选出来,用红色下划线标示在文本中,用户可以进行比较选择。本发明专利技术能够大量减少计算机文本中的错别字,减少完全依赖人工的办法矫正汉语文本的落后局面,提高效率。

【技术实现步骤摘要】

本专利技术属于中文信息处理。
技术介绍
随着计算机和网络的普及,特别是在中国,目前的网民人数有3亿之多,这对于目前的国内的hternet的发展起到了有力的推动;但是,随之而来的是大量的汉子错别字出现在网络和其相关的媒体。错别字包括错字,指写的不成字,规范字典中查不到的字;还有别字,指把甲字写成乙字,俗称“白字”。别字列举如下(括号内是正确的字)1.农付产品(副)2.拾园钱(圆)3.簿利多销(薄)由于汉语言不同于英文单词之间用空格;汉字之间没有空格,只有在出现词组的情况下,才能够判断词组的“字”是对还是错,上面的“付、园、簿”只有在这些词组中才能够判断其正确与否,单独的字,计算机无法判断其对错;而英文如“pruduct”,显然是拼写错误,正确的“product”;计算机可以立刻判断出来。因此,就目前的计算机语言处理而言,汉语言只能对“别字”进行判断和矫正。而现有的软件只对少部分的别字进行识别,比如上面的3个词组;只有“农付产品”软件“word”可识别并且鉴定。
技术实现思路
本专利技术就是针对目前广泛存在的输入中文别字普遍的现象,而且又没有合式的软件进行自动识别和矫正,进行了深入研究而提出的方法,在此专利技术的基础上可以编写出软件。还有,哪些试图采用对词语切分的方法进行别字的矫正的途径,是很难实现的。比如一篇文章中出现了 “农付产品,,的“付”别字,如果采用软件对它切分,结果是农/n付/V 产品/n η代表名词,ν代表动词。因此仍然无法判断和矫正;另外如果对整篇文本采用逐渐遍历的方式进行分析判断匹配,那么计算机的计算量非常大,非常不经济。我们以下面这句话作为例子第一节中导致“HuaYu”出现分词不一致的主要结构类型多与语言学家与老百姓对词的认识差异有关。如果这句话出现了如下的别字第一节中导置“HuaYu”出现分词不一致的主要结构类形多与语言学家与老百姓对词的认识差异有关。如果对整个句子从第一个字开始分析,会导致庞大的计算,但是如果根据下面的规则对句子进行切分,会大幅度减少计算机的工作量1先根据标点符号和非汉字字符串(,;。? [Q,abc -fc Y阿拉伯数字)的切分成一个单独的子句2对划分出来的子句除去代词我、你、她们;助词的、地,(但是先要除去”的士、 打的、大地”),连词从、而且、与;然后是联绵词(彷佛、玛瑙、葡萄等),专有名词(李白、世界贸易组织),再切分若干个词组;考虑到汉语的词组长度的概率,定义为最长词组是8字词,超过的不予考虑。3把欲处理的词组转换成拼音包括(多音字),4把转换的词组拼音与语料库的同样字长的词组拼音进行循环匹配比较,N(S)拼音不同,到(n-1)词组…最后到2字词组;继续进行这个循环。以8字词组为例,用数字代表汉字(12345678);比较的步骤如下拼音不同(8个字),与语料库的7字词组的拼音比较匹配;从子句(“N-l”7字长)的第一个字到第七个字;从第二个字到最后一个字;112345678212345678拼音不同(7个字),与语料库的6字词组的拼音比较匹配 η-2 (6 字长) 1.123456782.12345678 3.12345678拼音不同(6个字),与语料库的5字词组的拼音比较匹配;方法如下 η-3(5 字长) 1.123456782.12345678 3.12345678 4. 12345678拼音不同(5个字),与语料库的4字词组的拼音比较匹配;方法如下 Ν-4 (4 字长) 1.123456782.12345678 3.12345678 4. 12345678 5.12345678拼音不同G个字),与语料库的3字词组的拼音比较匹配;方法如下 Ν-5 (3 字长) 1.123456782.12345678 3.12345678 4. 12345678 5.123456786. 12345678拼音不同(3个字),与语料库的2字词组的拼音比较匹配;方法如下N-6 (2 字长)1.123456782. 123456783. 123456784. 123456785. 123456786. 123456787. 12345678因此,最多需要1+2+3+4+5+6+7 = 28次的计算比较匹配,可以把一个句子切分完毕。有了上述的规则,运算变得非常简单。上面句子切分的结果如下第一节中导置I “HuaYu” |出现分词不一致|的|主要结构类形|多与|语言学家I与I老百姓对词I的I认识差异有关。计算机只要对以下的7个“子句”分析判断第一节中呈置(5字词);出现分词不一致(7字词);主要结构(6字词)多与 (2字词)语言学家G字词);老百姓对词(5字词);认识差异有关(6字词)以“第一节中导置” (5字词)为例子然后在语料库里,讲行遍历杳找与“daozhi导置”拼咅相同的2字词,有3个导致、倒置和到职然后讲行字的比较,其中R有“导置”符合错别字的判断条件,筛诜出来,并且用红色下划线标示出来,点击鼠标右键出现对话窗鼠标选中“导致”,点击替换“导置”。如果一个词组有2种或者以上的正确写法,那么选择对话窗会出现所有的词组。本方法把需要海量计算的句子的切分和词组匹配,采用了汉语的词特殊的语法属性,大大减小了计算机的工作负荷,理论上使计算机矫正文本里的错别字成为可能;本专利技术可以大幅度的提高中文信息处速度,改善错别字在计算机普遍存在而且比较难改变的现状,净化汉语提升国家的文化形象。在目前计算机的计算能力大幅度提高的今天,而且国家有关部门建立了丰富的语料库的条件下,本专利技术是可以实现的。附图说明图1是词语匹配的逻辑框2是点击鼠标右键出现的对话窗具体实施例方式建立一个海量的语料库,包括标点符号,。、/();”5非汉字字符串如WTO Windows七时间名词年、月、日、今天等宋朝方位名词如上、下、左、右好前边人名如华罗庚地名北京伦敦族名如回族藏族机构名如联合国北京大学联绵词如彷佛、玛瑙、葡萄数词如1 2 —二叁第一代词如你我他妇女我们副词如都只就不居然介词如把从按照连词如和同而且助词如的地了等等叹词如啊哼拟声词如滴答扑通连词性习用语如总而言之缩略语如人大五四奥运这些字词数量少,但是对于切分句子的作用非常重要。再建立2字词到8字词的词库,按照词的汉语拼音排序。比如2 字词aba阿坝阿爸abao阿宝abo阿伯7 字词yaodingqingshanbufangsong 咬定胄山不双丰公。因为目前有了大量的语料库资料,因此可以建立一个动态的语料库,能够满足匹配的要求,而不会出现语料库没有要匹配的词而出现落空的情况。规则和算法确定之后,可以利用C语言或者其它的语言编写出程序,以软件的方始,对汉语文本进行分析判断和矫正。1用计算机软件对欲矫正的文本先通过标点符号和非汉字字符串WTO Windows七夂‘,把文本切分成若干个子句;2对每个子句的字词与语料库的时间名词、缩略语的字词比较后,以这些字词作为节点,再把每个子句切分成几个词单元。3把这些词组转换成拼音,与语料库的相同字长的拼音进行匹配。 如果拼音不同,把该词单元字长(η)减1后,与语料库的(η-1)字长的词组进行匹配,一直循环,直到与语料库的词组拼音匹配成功。权利要求1.包括语料库和计算机软件,其特征在于对选定的汉语文本文件以标点符号和本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:周连惠
申请(专利权)人:张家港市赫图阿拉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术