一种中文文本语法错误定位方法、系统、设备及介质技术方案

技术编号:34528744 阅读:34 留言:0更新日期:2022-08-13 21:20
本发明专利技术公开了一种中文文本语法错误定位方法、系统、设备及介质,所述定位方法包括以下步骤:获取待语法错误定位的中文文本并进行处理,获得满足预设长度要求的中文文本;基于所述满足预设长度要求的中文文本,利用预先训练好的文本语法错误定位模型进行语法错误定位,输出语法错误定位结果矩阵;其中,所述文本语法错误定位模型包括:输入层、BERT层、BiLSTM层、全连接层和输出层。本发明专利技术提供的中文文本语法错误定位方法具体是一种基于动态字向量表征的中文文本语法错误定位方法,可以指出中文句子中语法错误的位置;相较于GEC任务,可显著地提升准确率。著地提升准确率。著地提升准确率。

【技术实现步骤摘要】
一种中文文本语法错误定位方法、系统、设备及介质


[0001]本专利技术属于自然语言处理序列标注领域,特别涉及一种中文文本语法错误定位方法、系统、设备及介质。

技术介绍

[0002]随着互联网技术的普及和发展,电子文本数据急剧增加;由于用户在文本输入法、语音输入法使用上的随意性,后续又缺少审核,极易产生语法错误内容。近年来,随着自媒体的热潮,人人都是信息的生产者,文本的指数式增长造成了文本质量的下降,导致语句传递的意思不准确,甚至给人们造成误解。有分析表明,中文网络新闻标题和正文的语法错误率超过1%,这些语句不通顺的文本极大地影响了用户体验。
[0003]据统计,常见的中文语句语法错误的类型包括:重复累赘、用词不当、搭配不当、成分残缺和存在错别字等;以输入“生活就像海洋,只有意志坚强的人才能达彼岸”为例,可能产生的错误类型如表1所示。
[0004]表1.语法错误类型
[0005][0006]传统的人工审查方式对语法错误的句子进行筛查,不仅需要耗费大量的人力成本和时间成本,而且存在极大的主观性和不准确性,因此基于人工进行审查和评估是不现实的。为了解决中文语句存在的语法错误问题,利用计算机进行语句语法错误定位的研究应运而生。相比于人工反馈,利用计算机进行语法错误句子的判断具有更加客观、时效性强的优点。
[0007]早期利用计算机进行语法错误句子的判断主要基于规则和统计学。基于规则的语法错误句子的识别中,首先分析语言学家制定出的人类语言规则(例如,中文语句中的陈述句是由主谓宾构成的、定语修饰语需要加在名词前面等)制定一系列的规则后,利用自然语言处理技术对句子分析出各种成分,然后匹配规则模版;如果待判定的句子不在罗列的规则之内,则判定该句子是语法错误的句子。然而,基于规则的语法错误判断方法需要总结语
言规则,很难建立完善的语言规则,也缺乏相关的语言学知识,且存在判断机制过于单一、结果不理想、无法找出句子中语法出错的具体位置等问题。基于统计学的语法错误句子的识别中,大多采用N

gram语言模型;语言模型以一个符合语言规律的序列为输入,模型利用序列间关系等特征,输出一个在所有词汇上的概率分布;一句话越符合人类的自然语言规律,输出的概率也将会越大,利用这种输出的概率可以判断一句话是否有语法错误。由于N

gram统计语言模型基于马尔科夫假设,利用有限的历史信息,所以效率高,但是N

gram模型无法体现文本相似度,而且无法关联更早的文本信息,所以在判断一个句子是否有语法错误的任务上能力有限,存在准确率瓶颈。另外,也不能找出句子中语法出错的具体位置。
[0008]近年来,随着深度学习的发展,有许多采用深度学习来分析中文语法错误的方法,随之产生了文本语法纠错(Grammatical Error Correction,GEC)的研究;GEC能自动检测出句子语法不通顺的错误,然后将检测出的错误进行纠正,进而减少人工校验成本。GEC任务的方法一般是pipeline方法,包括:错误检测、候选召回和候选排序;首先采用长短周期记忆网络(Long Short

Term Memory,LSTM)和条件随机场(Conditional Random Field,CRF)检测句子中的错误位置和错误类型,然后对检测出来的错误位置召回正确片段候选,最后基于形音、词法、语义或用户行为,结合当前错误点上下文表示进行纠错排序。随着seq2seq等神经网络机器翻译方法在文本生成上的突出效果,学术界更多的采用端到端的生成正确句子的方法,利用生成模型直接使用错误文本生成正确文本。
[0009]基于上述陈述可知,将语法错误的句子作为GEC任务来进行处理,不仅可以识别出句子是否有语法错误,还可以得到改正后的正确句子;然而,利用GEC的方法对中文句子的语法错误分析还存在许多不足,主要表现在:
[0010](1)文本语法纠错任务准确率不高;解释性的,文本语法纠错任务同时需要兼顾语法错误判断、语法错误定位和语法错误改正三个任务,任务难度大;
[0011](2)在语法错误的句子上使用中文词向量会导致句子表示不准确;解释性的,中文词向量首先以“词语”为单元进行分词,但是中文分词系统以及词向量的训练都是在干净的语料上训练的,使用语法错误的句子会导致很多不正确的分割,导致的错误会更加难处理;同时,基于词的模型通常利用了很多子模块,而且需要处理很多特殊例子,导致系统复杂性高,很难全局优化。

技术实现思路

[0012]本专利技术的目的在于提供一种中文文本语法错误定位方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本专利技术提供的中文文本语法错误定位方法具体是一种基于动态字向量表征的中文文本语法错误定位方法,可以指出中文句子中语法错误的位置;相较于GEC任务,可显著地提升准确率。
[0013]为达到上述目的,本专利技术采用以下技术方案:
[0014]本专利技术第一方面提供的一种中文文本语法错误定位方法,包括以下步骤:
[0015]获取待语法错误定位的中文文本并进行处理,获得满足预设长度要求的中文文本;
[0016]基于所述满足预设长度要求的中文文本,利用预先训练好的文本语法错误定位模型进行语法错误定位,输出语法错误定位结果矩阵;
[0017]其中,所述文本语法错误定位模型包括:
[0018]输入层,用于输入满足预设长度要求的中文文本,将中文文本中的每个字均转化为序列矩阵并输出;
[0019]BERT层,用于输入所述输入层输出的序列矩阵,转化为字向量矩阵并输出;
[0020]BiLSTM层,用于输入所述字向量矩阵并进行特征提取,输出文本上下文特征向量;
[0021]全连接层,用于输入所述文本上下文特征向量,进行矩阵运算并取整,输出定位结果向量;
[0022]输出层,用于输入所述定位结果向量,输出语法错误定位结果矩阵。
[0023]本专利技术方法的进一步改进在于,所述预先训练好的文本语法错误定位模型的获取步骤包括:
[0024]获取训练样本集;所述训练样本集中的每个训练样本均包括满足预设长度要求的中文文本样本以及对应的语法错误定位结果矩阵;
[0025]训练更新时,将选定训练样本中的满足预设长度要求的中文文本样本输入所述文本语法错误定位模型中,获得语法错误定位结果预测矩阵;计算所述语法错误定位结果预测矩阵与所述选定训练样本中语法错误定位结果矩阵的差值,采用平均平方误差损失函数计算损失并更新所述文本语法错误定位模型的参数,达到预设收敛条件,获得所述预先训练好的文本语法错误定位模型。
[0026]本专利技术方法的进一步改进在于,所述获取训练样本集的步骤具体包括:
[0027]基于预设中文语句语法错误类型,结合NLPCC 2018中文语法错误纠正共享任务训练集,使用基于规则的方法构建获得语法错误句子数据库;其中,所述预设中文语句语法错误类型包括重复累赘、用词不当、搭配不当、成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文文本语法错误定位方法,其特征在于,包括以下步骤:获取待语法错误定位的中文文本并进行处理,获得满足预设长度要求的中文文本;基于所述满足预设长度要求的中文文本,利用预先训练好的文本语法错误定位模型进行语法错误定位,输出语法错误定位结果矩阵;其中,所述文本语法错误定位模型包括:输入层,用于输入满足预设长度要求的中文文本,将中文文本中的每个字均转化为序列矩阵并输出;BERT层,用于输入所述输入层输出的序列矩阵,转化为字向量矩阵并输出;BiLSTM层,用于输入所述字向量矩阵并进行特征提取,输出文本上下文特征向量;全连接层,用于输入所述文本上下文特征向量,进行矩阵运算并取整,输出定位结果向量;输出层,用于输入所述定位结果向量,输出语法错误定位结果矩阵。2.根据权利要求1所述的一种中文文本语法错误定位方法,其特征在于,所述预先训练好的文本语法错误定位模型的获取步骤包括:获取训练样本集;所述训练样本集中的每个训练样本均包括满足预设长度要求的中文文本样本以及对应的语法错误定位结果矩阵;训练更新时,将选定训练样本中的满足预设长度要求的中文文本样本输入所述文本语法错误定位模型中,获得语法错误定位结果预测矩阵;计算所述语法错误定位结果预测矩阵与所述选定训练样本中语法错误定位结果矩阵的差值,采用平均平方误差损失函数计算损失并更新所述文本语法错误定位模型的参数,达到预设收敛条件,获得所述预先训练好的文本语法错误定位模型。3.根据权利要求2所述的一种中文文本语法错误定位方法,其特征在于,所述获取训练样本集的步骤具体包括:基于预设中文语句语法错误类型,结合NLPCC 2018中文语法错误纠正共享任务训练集,使用基于规则的方法构建获得语法错误句子数据库;其中,所述预设中文语句语法错误类型包括重复累赘、用词不当、搭配不当、成分残缺和存在错别字类型中的一种或多种。4.根据权利要求3所述的一种中文文本语法错误定位方法,其特征在于,所述语法错误句子数据库中的语法错误包括叠字、叠词、叠音、多字、少字、少词、混乱、错字、错同音字、错同音词和错写成拼音中的一种或多种。5.一种中文文本语法错误定位系统,其特征在于,包括:文本获取模块,用于获取待语法错误定位的中文文本并进行处理,获得满足预设长度要求的中文文本;结果获取模块,用于基于所述满足预设长度要求的中文文本,利用预先训练好的文本语法错误定位模型进行...

【专利技术属性】
技术研发人员:蔡远利刘美
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1