英语作文语法错误自动检测与分析方法技术

技术编号:18913391 阅读:311 留言:0更新日期:2018-09-12 02:54
本发明专利技术提供了英语作文语法错误自动检测与分析方法。该方法首先对输入的待检测的英文作文进行断句,然后对断句后每个句子中单词进行分词处理,接着对单词进行拼写检查,拼写检查无误后对所有单词进行词性标注,接着对这些标注后存在多标签的单词进行标注效果的修正,然后是构建不同错误实例规则流程图,接着结合已有的语法规则以及错误实例综合地对语句进行语法检查,最后定位到作文中语法错误出现的位置,给出具体的修改意见。本发明专利技术能定位语法错误位置,给出具体错误内容和解决方案;同时通过修改错误实例流程图,还能拓展语法规则。本发明专利技术具有较高作文语法错误检测和纠正能力,能够快速对一篇英语作文进行语法检测并反馈,可应用于实时环境。

Automatic detection and analysis of grammatical errors in English Writing

The invention provides an automatic detection and analysis method for grammatical errors in English compositions. In this method, the input sentences of the English compositions to be checked are first broken, then the words in each sentence are segmented, and then the words are spelled checked. After spelling checking, all the words are part-of-speech labeled, and then the labeled words with multiple labels are corrected. Then, the flow chart of different error instance rules is constructed, and the grammar of sentences is checked by combining the existing grammar rules and error examples. Finally, the position of grammar errors in the composition is located, and the specific amendments are given. The invention can locate grammatical errors, give specific error contents and solutions, and expand grammatical rules by modifying the flow chart of error examples. The invention has the high ability of detecting and correcting grammatical errors in an English composition, can quickly detect and feedback grammatical errors in an English composition, and can be applied to a real-time environment.

【技术实现步骤摘要】
英语作文语法错误自动检测与分析方法
本专利技术一般涉及自然语言处理研究领域,具体涉及英语作文语法错误自动检测与分析方法。
技术介绍
现如今是高度全球化的世界,在这个背景下,英语成为了与世界沟通必不可少的桥梁。英语作为全球应用最为普及的一门语言,以英语为母语有4亿人左右,将英语作为第二语言进行沟通的人却超过了10亿。非英语母语的英语学习者所书写的英文文本占比高达70%,他们在进行英文写作的过程中,在语法上难免会犯错。尤其是在学术交流上,英语论文作为展示个人学术水平的重要工具,在学术交流过程中具有重要的作用。而英语作文语法的自动检测方法,则能够在一定程度上帮助各种英语学习人员检查自己的写作语法错误,避免一些低级错误的发生。现有的自然语法处理领域的研究主要有两大类,一类是语言学和教育学上的理论研究,一类是应用软件专利技术的软件系统研发。前者的研究为后者带来理论上的支持,后置为前者提供技术上的支持,但是目前国内在软件应用方面更多停留在理论研究上。国外目前存在一些比较成熟的方法,不同方法的优缺点各有不同,ProjectEssayGrader(PEG)是世界上最早出现的英语作文智能批改系统,不过该系统的运行效率很低,只能勉强完成评分工作;AES(AutomaticEssayScoring)系统同样可用对英语作文进行自动批阅和评分,对语法错误进行评判,但是AES系统还很难解决语义错误、结构错误以及语用错误。目前国内的AES系统,有语法检测,作文评分,主题关联检测等各种繁复的功能,但其核心的语法纠错部分准确率却非常低,不能根据不同的需要自定义变更检测规则,系统可扩展性也不够。而本专利技术则着重于研究这两个方面。本专利技术在保证对英语作文的错误检测率高的情况下,还能够提供拓展语法规则的空间。
技术实现思路
本专利技术针对当前英语作文语法错误检测需求巨大,现有英语作文语法方法不够完善的情况,提供了英语作文语法错误自动检测与分析方法。本方法目的在于帮助英语学习者自主地检查自己的写作,在没有指导人员帮助的情况,可以指出语法错误,帮助学习者提高自己的英语水平。具体技术方案如下。英语作文语法错误自动检测与分析方法,其包括以下步骤:(a)对前台获取提交的英语作文进行语句分句以及单词分词处理;(b)对步骤(a)中分词得到的所有单词进行拼写检查,反馈单词拼写对错情况以及存在的固定短语搭配;(c)若单词拼写无误,则对步骤(b)中拼写检查后所有单词,使用斯坦福分析器进行词性标记;(d)步骤(c)中进行词性标记后的单词可能会有多个词性标记,计算出所有词性标记的概率,选择概率最高的词性标记;(e)将常见的英文语法错误构建出词性标记的负实例规则流程图;(f)将步骤(d)中每个带词性标记的单词,根据其词性标记与步骤(e)中负实例规则流程图进行对比处理;于前台返回英语作文的语法错误以及推荐的修改方案,并将数据同步存储到数据库。进一步的,步骤(a)中,语句分句规则,对一篇英语作文中所有句点,包括“.!”做如下标记:[左单词][前缀][句点][后缀][右单词],其中前缀是指与句点前相连的字符串,后缀是句点其后相连的字符串,右单词是指句点其后紧接的下一个单词;然后依据流程(1)-(5)对每一个句点进行判断是否是句尾,从而实现分句:(1)前缀的最后一个字符为“.”时,判断为句尾;(2)后缀为空,且右单词为空,则可以判断为段末,亦为句尾;(3)后缀为空格,右单词不为空,且右单词首字母大写,若前缀不为Mr、Mrs、Ms、Dr、Miss的缩略语则为句尾;为此将会建立一个由常用缩略语组成的停词表;(4)后缀不为空格,且后缀首字母大写,若前缀后缀均不含其他句点,则为句尾;(5)其他情况可以判断为不属于句尾。进一步的,步骤(b)中,采用多级索引表的方式构建英语单词数据库,以单词开头的前三个字母作为词库的索引表。进一步的,步骤(b)中,构建了一个固定短语库,使用结合SQL语句和正则表达式对文中出现的固定短语进行过滤,对文本中使用的固定短语加以提示。进一步的,步骤(b)中,分词后得到的单词进行拼写检查,首先会建立一个存储了标注英语单词的词库,然后将所有单词与词库单词进行匹配,匹配成功的单词认为是拼写正确,匹配错误表示单词拼写错误。进一步的,步骤(c)中,依据句子上下文中的信息,使用词性标注器(PSOTagger)这个开源工具将每一个句子成分分配一个对应句子结构的词性标注,输出带有词性标注的文本。进一步的,步骤(d)中,得到的带有词性标注的文本中常出现具有多重词性的单词,使用宾州树库标签集(PennTreebank)给每一个单词贴上标签。然后根据计算公式:计算出概率最大的标签。进一步的,步骤(e)中,通过对各种英语语法的句子进行统计分类,统计常见的语法错误,分析错误的逻辑,对语法错误进行逻辑上的建模,根据词性标注器的词性标注,总结出来检测错误语法的基本逻辑流程。进一步的,步骤(f)中,文本在经过预处理和词性标注之后,将以…………的形式输出;以标注标签Tag作为负实例规则的触发条件,每一个标签Tag对应规则库中的一组规则;当扫描到标签时,将使用所述基本逻辑流程匹配语法错误,一旦匹配成功则将反馈检测出的语法错误与对应修改意见。进一步的,步骤(f)中,在一些语法规则中加入停词与例外排除的处理,特别是对长句子主谓单复数情况的检查。与现有技术相比,本专利技术具有如下优点和技术效果:在现有的英语作文语法检测与分析技术中,基于句法的句法检测方法虽然能快速判断语句是否存在错误,但是无法标记错误位置和反馈错误提示;基于统计的语法检测方法虽然错误检测率高,并且能够检测出错误的位置,但是无法说明具体错误原因,同时无法返回修改意见。本专利技术通过基于错误实例与规则的语法检查方法,先通过作文分句分词以及单词词性标注,再构建出对应词性标注语法错误的流程图,通过对词性对应的语法错误流程图判断出句子是否存在语法错误,并指出修改方案。基于错误实例的语法检查方法能够定位出语法错误的内容与位置,而基于规则的语法检查方法能够给出语法错误的具体修改方案。附图说明图1为实施例多级索引结构示意图。图2为实例中基于词性标注的语法规则流程图。图3为实施方式中英语作文语法错误自动检测与分析方法流程图。图4为实例中的固定短语提示示意图。图5为基于词性标注的语法规则逻辑流程图之一;图6为基于词性标注的语法规则逻辑流程图之二;图7为基于词性标注的语法规则逻辑流程图之三;图8为实例中一个简单的错误语法规则示意图。具体实施方式以下结合实施例对本专利技术的实施方式作进一步说明,但本专利技术的实施不限于此,需指出的是,以下若有未特别详细说明之过程或符号,均是本领域技术人员可参照现有技术理解或实现的。英语作文语法错误自动检测与分析方法,包括以下步骤:(a)对前台获取提交的英语作文进行语句分句以及单词分词处理;(b)对步骤(a)中分词得到的所有单词进行拼写检查,反馈单词拼写对错情况以及存在的固定短语搭配;(c)若单词拼写无误,则对步骤(b)中拼写检查后所有单词,使用斯坦福分析器进行词性标记;(d)步骤(c)中进行词性标记后的单词可能会有多个词性标记,计算出所有词性标记的概率,选择概率最高的词性标记;(e)将常见的英文语法错误构建出词性标记的负实例规则流程图;(f)将步本文档来自技高网
...

【技术保护点】
1.英语作文语法错误自动检测与分析方法,其特征在于,包括以下步骤:对前台获取提交的英语作文进行语句分句以及单词分词处理;对步骤(a)中分词得到的所有单词进行拼写检查,反馈单词拼写对错情况以及存在的固定短语搭配;若单词拼写无误,则对步骤(b)中拼写检查后所有单词,使用斯坦福分析器进行词性标记;步骤(c)中进行词性标记后的单词可能会有多个词性标记,计算出所有词性标记的概率,选择概率最高的词性标记;将常见的英文语法错误构建出词性标记的负实例规则流程图;将步骤(d)中每个带词性标记的单词,根据其词性标记与步骤(e)中负实例规则流程图进行对比处理;于前台返回英语作文的语法错误以及推荐的修改方案,并将数据同步存储到数据库。

【技术特征摘要】
1.英语作文语法错误自动检测与分析方法,其特征在于,包括以下步骤:对前台获取提交的英语作文进行语句分句以及单词分词处理;对步骤(a)中分词得到的所有单词进行拼写检查,反馈单词拼写对错情况以及存在的固定短语搭配;若单词拼写无误,则对步骤(b)中拼写检查后所有单词,使用斯坦福分析器进行词性标记;步骤(c)中进行词性标记后的单词可能会有多个词性标记,计算出所有词性标记的概率,选择概率最高的词性标记;将常见的英文语法错误构建出词性标记的负实例规则流程图;将步骤(d)中每个带词性标记的单词,根据其词性标记与步骤(e)中负实例规则流程图进行对比处理;于前台返回英语作文的语法错误以及推荐的修改方案,并将数据同步存储到数据库。2.根据权利要求1所述英语作文语法错误自动检测与分析方法,其特征在于:步骤(a)中,语句分句规则,对一篇英语作文中所有句点,包括“圆点、感叹号、问号”做如下标记:[左单词][前缀][句点][后缀][右单词],其中前缀是指与句点前相连的字符串,后缀是句点其后相连的字符串,右单词是指句点其后紧接的下一个单词;然后依据流程(1)-(5)对每一个句点进行判断是否是句尾,从而实现分句:(1)前缀的最后一个字符为“.”时,判断为句尾;(2)后缀为空,且右单词为空,则可以判断为段末,亦为句尾;(3)后缀为空格,右单词不为空,且右单词首字母大写,若前缀不为Mr、Mrs、Ms、Dr、Miss的缩略语则为句尾;为此将会建立一个由常用缩略语组成的停词表;(4)后缀不为空格,且后缀首字母大写,若前缀后缀均不含其他句点,则为句尾;(5)其他情况可以判断为不属于句尾。3.根据权利要求1所述英语作文语法错误自动检测与分析方法,其特征在于:步骤(b)中,采用多级索引表的方式构建英语单词数据库,以单词开头的前三个字母作为词库的索引表。4.根据权利要求1所述英语作文语法错误自动检测与分析方法,其...

【专利技术属性】
技术研发人员:黄翰刘方青卢尔昂郝志峰许悦婷
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1