一种校正输入中文拼写的方法技术

技术编号：7486706 阅读：204 留言：0更新日期：2012-07-09 20:59

本发明专利技术公开了一种校正输入中文拼写的方法，本发明专利技术把计算机的汉语文本通过标点符号和非汉字字符串作为节点，切分成若干个子句，然后再以代词、助词、连词作为每个子句的节点，把子句切分成几个字长大于等于2小于等于8的词单元，在后台把这些词单元转换成汉语拼音，然后与相同字长的语料库的词组拼音进行循环字长递减匹配，直到找到与要校正的词单元相同拼音的全部词组，然后在进行字的匹配，如果符合条件字的匹配率大于等于0.5小于1，那么就把该词单元筛选出来，用红色下划线标示在文本中，用户可以进行比较选择。本发明专利技术能够大量减少计算机文本中的错别字，减少完全依赖人工的办法矫正汉语文本的落后局面，提高效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于中文信息处理。
技术介绍
随着计算机和网络的普及，特别是在中国，目前的网民人数有3亿之多，这对于目前的国内的hternet的发展起到了有力的推动；但是，随之而来的是大量的汉子错别字出现在网络和其相关的媒体。错别字包括错字，指写的不成字，规范字典中查不到的字；还有别字，指把甲字写成乙字，俗称“白字”。别字列举如下(括号内是正确的字)1.农付产品(副)2.拾园钱(圆)3.簿利多销(薄)由于汉语言不同于英文单词之间用空格；汉字之间没有空格，只有在出现词组的情况下，才能够判断词组的“字”是对还是错，上面的“付、园、簿”只有在这些词组中才能够判断其正确与否，单独的字，计算机无法判断其对错；而英文如“pruduct”，显然是拼写错误，正确的“product”;计算机可以立刻判断出来。因此，就目前的计算机语言处理而言，汉语言只能对“别字”进行判断和矫正。而现有的软件只对少部分的别字进行识别，比如上面的3个词组；只有“农付产品”软件“word”可识别并且鉴定。
技术实现思路
本专利技术就是针对目前广泛存在的输入中文别字普遍的现象，而且又没有合式的软件进行自动识别和矫正，进行了深入研究而提出的方法，在此专利技术的基础上可以编写出软件。还有，哪些试图采用对词语切分的方法进行别字的矫正的途径，是很难实现的。比如一篇文章中出现了 “农付产品，，的“付”别字，如果采用软件对它切分，结果是农/n付/V 产品/n η代表名词，ν代表动词。因此仍然无法判断和矫正；另外如果对整篇文本采用逐渐遍历的方式进行分析判断匹配，那么计算机的计算量非常大，非常不经济。我们以下面这句话作为...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：周连惠，
申请(专利权)人：张家港市赫图阿拉信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人