一种基于全词掩码和依存掩码的中文文本的纠错方法技术

技术编号:41742111 阅读:28 留言:0更新日期:2024-06-19 13:02
本发明专利技术公开了一种基于全词掩码和依存掩码的中文文本的纠错方法,包括以下步骤:步骤S1:采集并构建数据集;步骤S2:构建文本纠错模型,文本纠错模型包括拼写纠错模型和语法纠错模型;步骤S3:将错误句子导入到步骤S2中的拼写纠错模型中,获取拼写纠错后的句子,同时对拼写纠错模型进行训练;步骤S4:将拼写纠错后的句子导入到步骤S2中的语法纠错模型的检测网络中,获得拼写纠错后的句子的语法错误类型,对语法纠错模型进行训练;步骤S5:语法错误类型的句子导入到语法纠错模型中的纠错网络,对获得语法错误类型的句子进行语法纠错,获得语法纠错后的句子。本发明专利技术通过引入依存句法分析,从而实现对语句更为精准的纠错。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体涉及一种基于全词掩码和依存掩码的中文文本的纠错方法


技术介绍

1、随着互联网的快速发展,文本信息出现了爆发式增长,自动文本纠错技术的应用场景不断扩大,以下列举了几个文本纠错技术的重要应用场景;(1)文书纠错:在用户书写电子文档时,自动文本纠错技术可以帮助他们检查书写的文书和资料,对可能存在问题的语句进行提示并给出合理的修正意见;提升用户写作的效率和质量;(2)输入法,搜索查询纠错:输入法和搜索引擎是生活中常用的工具,人们生活中使用输入法或搜索引擎的时候经常会有输错文字的情况;自动文本纠错技术可以在用户输入或者搜索时对其有误的输入进行智能提醒或纠错,给用户带来更好的使用体验;(3)数据预处理:随着互联网的发展,网络上的文本信息越来越多,海量的文本资料有很大的利用价值;然而网络上的文本数据不可避免存在噪声,文本会有拼写错误、语法错误等。通过自动文本纠错技术,模型可以对脏数据进行预处理,得到更洁净的数据集,提升数据的利用价值。

2、现有的文本纠错研究主要单独研究拼写纠错或语法纠错,但在实际应用中,一篇文章可能同时存在本文档来自技高网...

【技术保护点】

1.一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S1中的采集并构建数据集,具体为:

3.如权利要求1所述的基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S3具体为:

4.如权利要求1所述的一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S4具体为:

5.如权利要求4所述的一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S5包括:

【技术特征摘要】

1.一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤s1中的采集并构建数据集,具体为:

3.如权利要求1所述的基于全词掩码和依存掩码的中...

【专利技术属性】
技术研发人员:张坤周勇罗凯威廖广南
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1