一种中文文本语法错误定位方法、系统、设备及介质技术方案

技术编号：34528744 阅读：50 留言：0更新日期：2022-08-13 21:20

本发明专利技术公开了一种中文文本语法错误定位方法、系统、设备及介质，所述定位方法包括以下步骤：获取待语法错误定位的中文文本并进行处理，获得满足预设长度要求的中文文本；基于所述满足预设长度要求的中文文本，利用预先训练好的文本语法错误定位模型进行语法错误定位，输出语法错误定位结果矩阵；其中，所述文本语法错误定位模型包括：输入层、BERT层、BiLSTM层、全连接层和输出层。本发明专利技术提供的中文文本语法错误定位方法具体是一种基于动态字向量表征的中文文本语法错误定位方法，可以指出中文句子中语法错误的位置；相较于GEC任务，可显著地提升准确率。著地提升准确率。著地提升准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文文本语法错误定位方法、系统、设备及介质

[0001]本专利技术属于自然语言处理序列标注领域，特别涉及一种中文文本语法错误定位方法、系统、设备及介质。

技术介绍

[0002]随着互联网技术的普及和发展，电子文本数据急剧增加；由于用户在文本输入法、语音输入法使用上的随意性，后续又缺少审核，极易产生语法错误内容。近年来，随着自媒体的热潮，人人都是信息的生产者，文本的指数式增长造成了文本质量的下降，导致语句传递的意思不准确，甚至给人们造成误解。有分析表明，中文网络新闻标题和正文的语法错误率超过1％，这些语句不通顺的文本极大地影响了用户体验。
[0003]据统计，常见的中文语句语法错误的类型包括：重复累赘、用词不当、搭配不当、成分残缺和存在错别字等；以输入“生活就像海洋，只有意志坚强的人才能达彼岸”为例，可能产生的错误类型如表1所示。
[0004]表1.语法错误类型
[0005][0006]传统的人工审查方式对语法错误的句子进行筛查，不仅需要耗费大量的人力成本和时间成本，而且存在极大的主观性和不准确性，...

【技术保护点】

【技术特征摘要】
1.一种中文文本语法错误定位方法，其特征在于，包括以下步骤：获取待语法错误定位的中文文本并进行处理，获得满足预设长度要求的中文文本；基于所述满足预设长度要求的中文文本，利用预先训练好的文本语法错误定位模型进行语法错误定位，输出语法错误定位结果矩阵；其中，所述文本语法错误定位模型包括：输入层，用于输入满足预设长度要求的中文文本，将中文文本中的每个字均转化为序列矩阵并输出；BERT层，用于输入所述输入层输出的序列矩阵，转化为字向量矩阵并输出；BiLSTM层，用于输入所述字向量矩阵并进行特征提取，输出文本上下文特征向量；全连接层，用于输入所述文本上下文特征向量，进行矩阵运算并取整，输出定位结果向量；输出层，用于输入所述定位结果向量，输出语法错误定位结果矩阵。2.根据权利要求1所述的一种中文文本语法错误定位方法，其特征在于，所述预先训练好的文本语法错误定位模型的获取步骤包括：获取训练样本集；所述训练样本集中的每个训练样本均包括满足预设长度要求的中文文本样本以及对应的语法错误定位结果矩阵；训练更新时，将选定训练样本中的满足预设长度要求的中文文本样本输入所述文本语法错误定位模型中，获得语法错误定位结果预测矩阵；计算所述语法错误定位结果预测矩阵与所述选定训练样本中语法错误定位结果矩阵的差值，采用平均平方误差损失函数计算损失并更新所述文本语法错误定位模型的参数，达到预设收敛条件，获得所述预先训练好的文本语法错误定位模型。3.根据权利要求2所述的一种中文文本语法错误定位方法，其特征在于，所述获取训练样本集的步骤具体包括：基于预设中文语句语法错误类型，结合NLPCC 2018中文语法错误纠正共享任务训练集，使用基于规则的方法构建获得语法错误句子数据库；其中，所述预设中文语句语法错误类型包括重复累赘、用词不当、搭配不当、成分残缺和存在错别字类型中的一种或多种。4.根据权利要求3所述的一种中文文本语法错误定位方法，其特征在于，所述语法错误句子数据库中的语法错误包括叠字、叠词、叠音、多字、少字、少词、混乱、错字、错同音字、错同音词和错写成拼音中的一种或多种。5.一种中文文本语法错误定位系统，其特征在于，包括：文本获取模块，用于获取待语法错误定位的中文文本并进行处理，获得满足预设长度要求的中文文本；结果获取模块，用于基于所述满足预设长度要求的中文文本，利用预先训练好的文本语法错误定位模型进行...

【专利技术属性】
技术研发人员：蔡远利，刘美，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人