一种基于Transformer和多任务学习的中文语法纠错方法技术

技术编号:34473979 阅读:76 留言:0更新日期:2022-08-10 08:48
本发明专利技术涉及一种基于Transformer和多任务学习的中文语法纠错方法,该方法包括以下步骤:步骤A:利用爬虫技术收集Lang

【技术实现步骤摘要】
一种基于Transformer和多任务学习的中文语法纠错方法


[0001]本专利技术涉及中文文本纠错
,尤其是涉及一种基于Transformer和多任务学习的中文语法纠错方法。

技术介绍

[0002]在互联网时代,每天都要产生海量的文本数据和文本信息,人们需要对这些数据进行核对和校正,否则会干扰后续重要的工作。常规的人工校对方式速度慢、成本高,无法适应现在的信息爆炸时代。随着计算机技术和自然语言处理技术的发展,学术界以及工业界开始自动文本校对的研究,减轻人工校对的负担。早期的文本校对采用基于规则和统计的机器学习方法,随着文本数据的扩增,该方法存在不够灵活、泛化能力差的缺点。随着深度学习的发展,主流更多选择基于深度学习的神经网络模型实现文本校对,进行大规模的文本数据的训练。
[0003]中文语法纠错指的是针对中文文本中的语法错误进行校对,包括错误检测、错误定位和错误纠正等任务,常用的语法纠错方案有两种:一种是把纠错看成错误检测、错误标注和错误纠正等子任务,将多个子模型集成起来,错误标注通常使用序列标注模型,比如BiLSTM+CRF经本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,该方法包括以下步骤:步骤A:利用爬虫技术收集Lang

8网站母语非中文学习者书写语句和对应批改语句,清洗并筛选语句对,组成语料库;步骤B:对语料库中的语句对数据进行预处理;包括去停用词、繁体转简体、以及划分训练集和验证集;步骤C:基于编辑操作集合生成训练样本所需的标签;步骤D:构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练;步骤E:对完成训练的中文语法纠错模型通过验证集进行验证,根据评价指标评价纠错效果,并利用该模型输入待纠错语句进行纠错。2.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤A中,对语句对进行清洗筛选的原则具体包括:若原语句对应不止一个批改句,则选择其中一个批改句和原语句组成语句对;若原语句没有对应批改句,表示该语句正确,则复制其本身组成语句对;选取句长范围在20~90的原语句。3.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤B中,预处理包括去停用词、繁体转简体、以及划分训练集和验证集,所述的去停用词具体为:去除包括数字、英文、乱符的非中文字符,以提高语料数据精度;所述的繁体转简体具体为:将语句中的繁体字符转为简体字符。4.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤C具体包括以下步骤:步骤C1、将语句对按照字粒度切割成token序列;步骤C2、计算待纠错语句和对应的正确句的token级别编辑距离,得到编辑操作集合;步骤C3、根据编辑操作集合,按照多字、少字、乱序和替换四种语法错误进行分类,对待纠错语句序列中存在的语法错误进行标注,获得错误标签序列。5.根据权利要求4所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤C2中,采用工具包MaxMatch(M2)计算编辑距离。6.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤D中,基于Transformer和多任务学习的中文语法纠错模型包括预训练模型、Transformer和CRF层,所述的Transformer的Encoder端由Embedding层和N个相同的神经...

【专利技术属性】
技术研发人员:黄继风冯雅
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1