一种基于Transformer和多任务学习的中文语法纠错方法技术

技术编号：34473979 阅读：63 留言：0更新日期：2022-08-10 08:48

本发明专利技术涉及一种基于Transformer和多任务学习的中文语法纠错方法，该方法包括以下步骤：步骤A：利用爬虫技术收集Lang

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer和多任务学习的中文语法纠错方法

[0001]本专利技术涉及中文文本纠错
，尤其是涉及一种基于Transformer和多任务学习的中文语法纠错方法。

技术介绍

[0002]在互联网时代，每天都要产生海量的文本数据和文本信息，人们需要对这些数据进行核对和校正，否则会干扰后续重要的工作。常规的人工校对方式速度慢、成本高，无法适应现在的信息爆炸时代。随着计算机技术和自然语言处理技术的发展，学术界以及工业界开始自动文本校对的研究，减轻人工校对的负担。早期的文本校对采用基于规则和统计的机器学习方法，随着文本数据的扩增，该方法存在不够灵活、泛化能力差的缺点。随着深度学习的发展，主流更多选择基于深度学习的神经网络模型实现文本校对，进行大规模的文本数据的训练。
[0003]中文语法纠错指的是针对中文文本中的语法错误进行校对，包括错误检测、错误定位和错误纠正等任务，常用的语法纠错方案有两种：一种是把纠错看成错误检测、错误标注和错误纠正等子任务，将多个子模型集成起来，错误标注通常使用序列标注模型，比如BiLSTM+CRF经典模型。这种方法容易产生错误传递，上一个子模型结果影响到下一子模型，从而影响整个纠错系统性能；另一种是将纠错任务直接看成“翻译”任务，由待纠错句“翻译”成正确句，通常选择端到端的神经翻译模型(NMT)实现纠错任务，但是目前纠错的性能的速度都不能满足要求。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Transform...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，该方法包括以下步骤：步骤A：利用爬虫技术收集Lang
‑
8网站母语非中文学习者书写语句和对应批改语句，清洗并筛选语句对，组成语料库；步骤B：对语料库中的语句对数据进行预处理；包括去停用词、繁体转简体、以及划分训练集和验证集；步骤C：基于编辑操作集合生成训练样本所需的标签；步骤D：构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练；步骤E：对完成训练的中文语法纠错模型通过验证集进行验证，根据评价指标评价纠错效果，并利用该模型输入待纠错语句进行纠错。2.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤A中，对语句对进行清洗筛选的原则具体包括：若原语句对应不止一个批改句，则选择其中一个批改句和原语句组成语句对；若原语句没有对应批改句，表示该语句正确，则复制其本身组成语句对；选取句长范围在20～90的原语句。3.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤B中，预处理包括去停用词、繁体转简体、以及划分训练集和验证集，所述的去停用词具体为：去除包括数字、英文、乱符的非中文字符，以提高语料数据精度；所述的繁体转简体具体为：将语句中的繁体字符转为简体字符。4.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤C具体包括以下步骤：步骤C1、将语句对按照字粒度切割成token序列；步骤C2、计算待纠错语句和对应的正确句的token级别编辑距离，得到编辑操作集合；步骤C3、根据编辑操作集合，按照多字、少字、乱序和替换四种语法错误进行分类，对待纠错语句序列中存在的语法错误进行标注，获得错误标签序列。5.根据权利要求4所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤C2中，采用工具包MaxMatch(M2)计算编辑距离。6.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤D中，基于Transformer和多任务学习的中文语法纠错模型包括预训练模型、Transformer和CRF层，所述的Transformer的Encoder端由Embedding层和N个相同的神经...

【专利技术属性】
技术研发人员：黄继风，冯雅，
申请(专利权)人：上海师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人