【技术实现步骤摘要】
本专利技术涉及中文语法纠错评估,具体地说是一种对中文语法纠错平行语料的自动中文语法纠错标注的方法。
技术介绍
0、技术背景
1、随着全球化的不断推进,越来越多的人开始学习中文。中文的词序较为灵活自由,存在众多需要根据上下文理解的多音字、多义字,且词与词之间没有空格这样天然的分隔符,这导致中文的语法规则较为复杂。对于第二语言学习者来说,他们很容易受到母语的影响,错误地理解和使用中文语法。即使是对于中文母语人士而言,平时的写作中也可能会出现一些不规范的语法使用。中文语法纠错任务便是为了自动检测和纠正中文文本中的语法错误,从而得到符合语法的规范语句。为了中文语法纠错模型的训练,构造足够的中文语法纠错数据集以及建立完备、统一的评估标准是必要的。然而,中文语法纠错数据集的建立往往要花费大量的人力物力。究其原因,语法纠错模型的评估需要人工标注的修改编辑对作为参考,这导致了语法纠错数据集的建立成本显著增加。自动中文语法纠错标注方法能够自动标注修改编辑对,相较于人工标注,自动标注具有统一的标准,不会受到标注人员的差异导致标注结果的变化。这也
...【技术保护点】
1.一种对中文语法纠错平行语料的自动标注方法,其特征在于,该方法由文本对齐模块和错误分类模块组成,通过自动标注流程、系统分析流程以及数据集分析流程,实现对中文语法纠错系统和基准数据集的评估和诊断,所述文本对齐模块基于Damerau-Levenshtein算法,计算原文本与目标文本的编辑距离,将得到的文本编辑对在词性、字符和语法类型三种不同的语法特征进行定义,并为原词和目标词之间的编辑操作赋予不同的编辑分数,当原词和目标词的相似度较高时,它们的编辑分数之和将趋于0,更有可能被对齐;所述错误分类模块根据中文语法等级大纲,通过启发式规则对编辑文本中的原词和目标词进行判断,得
...【技术特征摘要】
1.一种对中文语法纠错平行语料的自动标注方法,其特征在于,该方法由文本对齐模块和错误分类模块组成,通过自动标注流程、系统分析流程以及数据集分析流程,实现对中文语法纠错系统和基准数据集的评估和诊断,所述文本对齐模块基于damerau-levenshtein算法,计算原文本与目标文本的编辑距离,将得到的文本编辑对在词性、字符和语法类型三种不同的语法特征进行定义,并为原词和目标词之间的编辑操作赋予不同的编辑分数,当原词和目标词的相似度较高时,它们的编辑分数之和将趋于0,更有可能被对齐;所述错误分类模块根据中文语法等级大纲,通过启发式规则对编辑文本中的原词和目标词进行判断,得到细粒度的语法分类,即编辑类型和语法类型的分类,对编辑类型,将其分为“冗余词”、“遗漏词”、“选词错误”和“词序错误”四类;对语法类型,从中文语法等级大纲中提取38条语法规则,并据此生成38种语法类型分类;所述自动标注流程包括:文本分词、文本对齐、错误分类和标注生成,通过分析工具对中文文本纠错任务的平行原语句与纠正语句进行文本编辑对的提取,并将提取出的编辑对转化为符合标准m2格式的形式;所述系统分析流程包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。