当前位置: 首页 > 专利查询>姜赢专利>正文

一种基于XML规则的中文语法校正方法与系统技术方案

技术编号:7996345 阅读:242 留言:0更新日期:2012-11-22 05:10
一种基于XML规则的中文语法校正方法,包括:确定被检测中文文本,以输入或选择的方式确定被检测的中文文本;切词和标注词性,将确定被检测的中文文本分解成字或/和词,并分别将分解出来的字或/词标注词性;循环检测,将标注有词性的字或/和词,根据其词性、字符和位置关系,与以XML标记语言为基础所建立的中文语法错误规则数据库中的中文语法错误规则进行匹配,并得出匹配结果;匹配结果显示,将匹配结果或者与匹配结果相应的修改建议进行显示。本发明专利技术具有数据库数据容量要小,维护方便;特别适合于开放式的建立数据库;中文语法错误检测面广,准确率高的优点。?

【技术实现步骤摘要】

本专利技术涉及一种基于XML规则的中文语法校正方法与系统,它主要通过中文分词和词性标注和中文语法纠错技术手段来纠正用户输入的多音字错误、字型、词型以及语法、句法等错误,解决用户在输入过程中字符替换错误、多字/漏字错误和字符位置错误等类型。并在此基础上扩展了基础功能,中文纠错技术,中文词性自主判断技术,XML规则循环检测及匹配,相关提示技术等,在智能纠错功能上更加完善,为用户提供更好的服务。
技术介绍
随着信息社会的发展,电脑已被广泛用来处理各种以汉字为基础的中文文件。通常汉字的输入主要基于两种方式,一种是以形码为主的输入方式,一种是以拼音为主的输入方式,前者以五笔输入法为典型代表,它具有输入快,准确率高的特点,但是,这种输入方法初学时比较困难,现在的年轻人难以接受;后者则有许多输入方法,如最初有全拼输入 法,现在拼音输入法很多,并且大受年轻人的喜爱,拼音输入法学习起来较简单,但是,在输入时容易造成许多词法或/和语法错误;当然,中文语法错误的产生除了输入时产生外,还有用户语言文字表达能力局限性也会导致语法错误,用户对词语用法不熟悉等也会产生的语法错误。给中文文本设置输入纠错方法或/和文本错误检查和校正方法是十分必要的,输入纠错方法和文本错误检查和校正方法其实质上是一样的,只不过输入纠错方法是在输入汉字时自动纠错,而文本错误检查和校正方法是在人们输入一段文字后,再进行文本错误检查和校正,因此,为了叙述的方便,在下文中将输入纠错方法和文本错误检查和校正方法统称为中文纠错方法。由于中文与其它文字(如英文)比较存在两个方面的主要区别,一是英文中每个词之间有空格,不用考虑分词问题,所以只需要对每个单词进行拼写检查,常用的方法是利用编辑距离来确定词与词之间的相似程度,另外考虑每个词在文本中的统计信息来最终判断错误拼写。而对于中文,考虑到中文语言的特殊性,首先要对文本进行切割分词,然后再进行错误检查和校正;二是中文语言中存在大量的同音字(词)和近音字(词),因此,中文的错误检查和校正要大大地难于西文的错误检查和校正。常见的中文纠错方法一般包括下述几个步骤一是建立基于词典和/或基于文本统计信息的正确词语的词语库及索引,这就需要建立一个庞大的词语库及索引表,这种词语库及索引表不仅需要一定的维护代价,而且随着网络和自然语言的飞速发展,仅仅依靠词典和/或基于文本统计信息的收录规模来进行纠错越来越难以满足中文纠错方法的需要。二是分词,当然,对段落而言首先要进行分句,分句后再进行分词。三是在词的层次上做匹配校验,以及借助统计语言模型,在更高层次上提取更多的信息来做字(词)串和句子的正确识别,即消岐;目前,在词的层次上做匹配校验中使用较多是转换拼音法,而中文的统计语言模型使用的最多是N — gram统计语言模型。四是向用户提示纠正信息。如中国专利文献CN101989282A公开的对中文查询词进行纠错的方法及其装置,所采用的是将接收到的中文查询词转换为拼音,然后再进行检测及校正的方法;再如中国专利文献CN101206673A所公开的网络搜索过程中关键词的智能纠错系统及方法均属于转换拼音纠错法。上述中文纠错方法存在以下几个方面的主要问题,一是无法检测中文文件中的语法错误,现有技术多关注中文词语的拼写错误,即错别字,却无法解决语法错误,如搭配不当。如无法判定“改善水平”为错误搭配,因“改善”和“水平”都为正确词语,而正确搭配应为“提高水平”。二是依赖拼音的检测方案由于未考虑上下文与词语之间的关系,同音不同字的正确词语会被同时提供给用户,缺少精确的匹配关系(错误词语与正确词语之间),给使用者造成麻烦。现有技术无法判断的根本原因在于缺乏有效的手段在无正确词语提供对比时判断词语的正确与否,更无法在字词正确的情况下去判断语法的错误。三是中文的词汇量非常大,现今新词、网络词语更新的速度很快,现有的基于词典和/或基于文本统计信息的正确词语的词语库及索引,这种词语库及索引表不仅需要一定的维护代价,而且随着网络和自然语言的飞速发展,仅仅依靠词典和/或基于文本统计信息的收录规模来进行纠错越来越难以满足中文纠错方法的需要,缺省的词语库不足以包含所有词汇。通过转化为拼音实现的纠错方案会将词语库中不包含的词语判定为错,因而出错率较高
技术实现思路
为了克服上述问题,本专利技术向社会提供一种数据库容量需要小,纠错率高,且词性纠错功能不仅可以修正拼写错误,而可以修正语法错误,其中拼写错误包括词语错误和成语错误两种,而语法错误则是涵盖了实词、虚词和句法等方面的基于XML规则的中文语法校正方法与系统。本文中所述的XML规则与所述的中文语法错误规则意思相同,本文中的中文语法错误规则包括语法错误规则和拼写规则两个方面。本专利技术的总体构思是首先,在互联网平台或/和其它平台上通过大量的语法错误数据信息收集,建立填充至以XML标记语言为基础的中文语法错误规则库,;然后,输入或确认被检测中文文本,再以字/词的字符、位置关系和词性通过循环检测方式计算出字符替换错误,语法错误匹配等;最后,将通过计算所匹配得到的所有结果并显示。 本专利技术的技术方案是提供一种基于XML规则的中文语法校正方法,包括 确定被检测中文文本 以输入或选择的方式确定被检测的中文文本; 分词和标注词性 将确定被检测的中文文本分解成字或/和词,并分别将分解出来的字或/词标注词性; 循环检测 将标注有词性的字或/和词,根据其词性、字符和位置关系,与以XML标记语言为基础所建立的中文语法错误规则数据库中的中文语法错误规则进行匹配,如果词性、字符和位置关系都匹配,则表示匹配成功,则得出匹配结果,如果词性、字符和位置关系任意一项不匹配,则表示匹配不成功,匹配结果为零; 匹配结果显示 将匹配结果列表,并显示与匹配结果相应的修改建议。作为对本专利技术的改进,所述中文语法错误规则库中的每条中文语法错误规则都是由相近的字/词或一组语法错误编写而成,每条中文语法错误规则均包含相应语法错误的修改建议。作为对本专利技术的改进,在所述循环检测中,如果一个字或词有多个词性的时候,用消歧方法来确定哪个词性最符合这个字或词,从而得出最终匹配结果。作为对本专利技术的改进,在所述确定被检测中文文本之后,还包括 段落判断 判断所确定的被检测中文文本是否为段落,如果是,则进 入分句,分句后进入分词和标注词性,如果否,则直接进入分词和标注词性。作为对本专利技术的改进,所述语法错误规则包括词性误用规则、语法成份之间搭配不当规则、语法成份残缺规则、语法成份多余规则、语序不当规则和成语错误规则。作为对本专利技术的改进,所述语法错误规则包括词性误用规则、语法成份之间搭配不当规则、语法成份残缺规则、语法成份多余规则、语序不当规则和成语错误规则中的任意一项规则。本专利技术还提供一种基于XML规则的中文语法校正系统,包括,确定被检测中文文本模块 以输入或选择的方式确定被检测的中文文本; 分词和标注词性模块 将确定被检测的中文文本分解成字或/和词,并分别将分解出来的字或/词标注词性; 循环检测模块 将标注有词性的字或/和词,根据其词性、字符和位置关系,与以XML标记语言为基础所建立的中文语法错误规则数据库中的中文语法错误规则进行匹配,如果词性、字符和位置关系都匹配本文档来自技高网
...

【技术保护点】
一种基于XML规则的中文语法校正方法,其特征在于,包括:确定被检测中文文本以输入或选择的方式确定被检测的中文文本;切词和标注词性将确定被检测的中文文本分解成字或/和词,并分别将分解出来的字或/词标注词性;循环检测将标注有词性的字或/和词,根据其词性、字符和位置关系,与以XML标记语言为基础所建立的中文语法错误规则数据库中的中文语法错误规则进行匹配,如果词性、字符和位置关系都匹配,则表示匹配成功,则得出匹配结果,如果词性、字符和位置关系任意一项不匹配,则表示匹配不成功,匹配结果为零;匹配结果显示将匹配结果列表,并显示与匹配结果相应的修改建议。

【技术特征摘要】

【专利技术属性】
技术研发人员:姜赢林耿锐程文婷吕洋闫洪滔刘轩玮
申请(专利权)人:姜赢林耿锐程文婷吕洋闫洪滔刘轩玮
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1