【技术实现步骤摘要】
本专利技术属于自然语言处理,具体涉及一种基于全词掩码和依存掩码的中文文本的纠错方法。
技术介绍
1、随着互联网的快速发展,文本信息出现了爆发式增长,自动文本纠错技术的应用场景不断扩大,以下列举了几个文本纠错技术的重要应用场景;(1)文书纠错:在用户书写电子文档时,自动文本纠错技术可以帮助他们检查书写的文书和资料,对可能存在问题的语句进行提示并给出合理的修正意见;提升用户写作的效率和质量;(2)输入法,搜索查询纠错:输入法和搜索引擎是生活中常用的工具,人们生活中使用输入法或搜索引擎的时候经常会有输错文字的情况;自动文本纠错技术可以在用户输入或者搜索时对其有误的输入进行智能提醒或纠错,给用户带来更好的使用体验;(3)数据预处理:随着互联网的发展,网络上的文本信息越来越多,海量的文本资料有很大的利用价值;然而网络上的文本数据不可避免存在噪声,文本会有拼写错误、语法错误等。通过自动文本纠错技术,模型可以对脏数据进行预处理,得到更洁净的数据集,提升数据的利用价值。
2、现有的文本纠错研究主要单独研究拼写纠错或语法纠错,但在实际应用中,
...【技术保护点】
1.一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S1中的采集并构建数据集,具体为:
3.如权利要求1所述的基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S3具体为:
4.如权利要求1所述的一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S4具体为:
5.如权利要求4所述的一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤S5包括:
【技术特征摘要】
1.一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,步骤s1中的采集并构建数据集,具体为:
3.如权利要求1所述的基于全词掩码和依存掩码的中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。