一种文本审校的方法技术

技术编号:38728047 阅读:7 留言:0更新日期:2023-09-08 23:19
本发明专利技术方法提供一种文本审校的方法,针对中文场景的文本审校方法,该方法借助深度神经网络技术和完备的中文纠错规则,可以实现中文拼写纠错、语法纠错、成语纠错、人名地名纠错、古诗俗语纠错、标点符号检测、日期格式检测等功能,通过对错误类型进行分类以及采取不同的通道进行处理,本方法可以有效可控地对含错中文文本进行校对。文文本进行校对。文文本进行校对。

【技术实现步骤摘要】
一种文本审校的方法


[0001]本专利技术方法涉及人工智能、拼音纠错、自然语言处理,特别是涉及一种文本审校的方法。

技术介绍

[0002]随着移动终端和互联网的快速发展,信息数字化逐渐成为不可逆转的时代潮流,而中文文本数字化的过程更是面临着诸多挑战。现阶段,中文文本数字化的手段主要包括输入法输入、图像文字识别(OCR)或语音识别(ASR),每一种方法都存在输入误差的问题,即在输入过程中会引入中文拼写错误、语法错误或格式错误。在通用领域中,中文文本纠错问题是一直在寻求解决的问题。当前由于用户输入随意及手写输入法易出错等原因,错误串在输入文本中占比高达10%

15%,这也使得中文文本纠错模块必要性凸显。而在垂直领域中,由于用户对垂直领域的术语不够了解,因此用户创作文本中往往含有更大比例的含错内容。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,在本专利技术方法系统中,为纠正文本数字化过程中引入的文本错误,本专利技术方法提出一种针对中文场景的文本审校方法,该方法借助深度神经网络技术和完备的中文纠错规则,可以实现中文拼写纠错、语法纠错、成语纠错、人名地名纠错、古诗俗语纠错、标点符号检测、日期格式检测等功能,通过对错误类型进行分类以及采取不同的通道进行处理,本方法可以有效可控地对含错中文文本进行校对。
[0004]为实现上述目的及其他相关目的,本专利技术方法提供一种文本审校的方法,包括步骤:
[0005]S1)输入文本,按照换行符分段;
[0006]S2)检测全角或者半角符号混用以及标点符号是否配对;
[0007]S3)规则纠错;
[0008]S4)GEC模型纠错;
[0009]S5)合并结果并输出。
[0010]可选地,步骤S3)所述的规则纠错识别并纠正中文文本中的字词误用错误。首先基于音近字和形近字字典针对干净的中文文本进行随机替换构造中文拼写纠错的伪训练数据,通过这些平行数据训练端到端的序列到序列模型,从而实现中文拼写纠错的功能。
[0011]可选地,步骤S3)所述的规则纠错识别并纠正中文文本中的字词缺失、字词冗余、字词乱序和指代混乱等语法错误,进行随机以字词缺失、字词冗余、字词乱序和指代混乱等规律构造中文语法纠错的伪训练数据,通过这些平行数据训练端到端的序列到序列模型,从而实现中文语法纠错的功能。
[0012]可选地,步骤S3)所述的规则纠错识别并纠正常见成语中的字词误用、字词缺失、字词冗余和字词乱序等错误,通过在成语网上爬取大量的成语,在算法检测端通过正则表
达式以及语言模型进行成语检错和成语纠错的步骤。
[0013]可选地,步骤S3)所述的规则纠错识别并纠正常见公众人物以及国家、省市和区县粒度地名的拼写错误,通过在搜集大量的公众人士的人员名单与常用的地名,在算法检测端通过语言模型、模糊匹配进行成人名地名的纠错。
[0014]可选地,步骤S3)所述的规则纠错识别并纠正常见古诗俗语中的拼写错误和语法错误,通过在互联网上爬取大量的古诗、俚语,在算法检测端通过正则表达式以及语言模型进行古诗俗语纠错的步骤。
[0015]可选地,步骤S3)所述的规则纠错检测中文文本中的标点符号误用、缺失和冗余等错误,通过正则表达式进行实现。
[0016]可选地,步骤S3)所述的规则纠错检测文本中年月日搭配下的日期错误。通过正则表达式进行实现。
[0017]如上所述,本专利技术方法提供一种文本审校的方法,具有以下有益效果:本专利技术方法通过将中文语法纠错中的问题具体分类,而后逐一模块进行对应的方案设计,一方面可以提升针对每一种错误类型的纠错准确率,另一方面也可以通过可信赖的人工智能手段对含错文本进行校对。本专利技术方法由于采用多通道的方式解决文本审校问题,因此便于技术开发人员能够针对于各个子模块进行独立的优化和部署,有效地提升开发效率与开发安全性;本专利技术方法较为全面地对中文文本中常见的语法错误进行了覆盖,可以广泛地应用于通用场景与各个垂直场景如公文写作、保险领域等中。
附图说明
[0018]图1为一实施例提供的一种文本审校的方法流程示意图;
具体实施方式
[0019]以下通过特定的具体实例说明本专利技术方法的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术方法的其他优点与功效。本专利技术方法还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术方法的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0020]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术方法的基本构想,遂图式中仅显示与本专利技术方法中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0021]请参阅图1所示,本专利技术方法提供一种文本审校的方法,包括步骤:
[0022]S1)输入文本,按照换行符分段;
[0023]S2)检测全角或者半角符号混用以及标点符号是否配对;
[0024]S3)规则纠错;
[0025]S4)GEC模型纠错;
[0026]S5)合并结果并输出。
[0027]在一示例性实施例中,步骤S3)所述的规则纠错识别并纠正中文文本中的字词误
用错误。首先基于音近字和形近字字典针对干净的中文文本进行随机替换构造中文拼写纠错的伪训练数据,通过这些平行数据训练端到端的序列到序列模型,从而实现中文拼写纠错的功能。步骤S3)所述的规则纠错识别并纠正中文文本中的字词缺失、字词冗余、字词乱序和指代混乱等语法错误。进行随机以字词缺失、字词冗余、字词乱序和指代混乱等规律构造中文语法纠错的伪训练数据,通过这些平行数据训练端到端的序列到序列模型,从而实现中文语法纠错的功能。步骤S3)所述的规则纠错识别并纠正常见成语中的字词误用、字词缺失、字词冗余和字词乱序等错误。通过在成语网上爬取大量的成语,在算法检测端通过正则表达式以及语言模型进行成语检错和成语纠错的步骤。步骤S3)所述的规则纠错识别并纠正常见公众人物以及国家、省市和区县粒度地名的拼写错误。通过在搜集大量的公众人士的人员名单与常用的地名,在算法检测端通过语言模型、模糊匹配进行成人名地名的纠错。步骤S3)所述的规则纠错识别并纠正常见古诗俗语中的拼写错误和语法错误。通过在互联网上爬取大量的古诗、俚语,在算法检测端通过正则表达式以及语言模型进行古诗俗语纠错的步骤。步骤S3)所述的规则纠错检测中文文本中的标点符号误用、缺失和冗余等错误。通过正则表达式进行实现。步骤S3)所述的规则纠错检测文本中年月日搭配下的日期错误。通过正则表达式进行实现。
[0028]综上所述,本专利技术方法提供一种文本审校的方法,具有以下有益效果:本专利技术方法通过将中文语法纠错中的问题具体分类,而后逐一模块进行对应的方案设计,一方面可以提升针对每一种错误本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本审校的方法,包括步骤:S1)输入文本,按照换行符分段;S2)检测全角或者半角符号混用以及标点符号是否配对;S3)规则纠错;S4)GEC模型纠错;S5)合并结果并输出。2.根据权利要求1所述的一种文本审校的方法,其特征在于,步骤S3)所述的规则纠错识别并纠正中文文本中的字词误用错误,首先基于音近字和形近字字典针对干净的中文文本进行随机替换构造中文拼写纠错的伪训练数据,通过这些平行数据训练端到端的序列到序列模型,从而实现中文拼写纠错的功能。3.根据权利要求1所述的一种文本审校的方法,其特征在于,步骤S3)所述的规则纠错识别并纠正中文文本中的字词缺失、字词冗余、字词乱序和指代混乱等语法错误,进行随机以字词缺失、字词冗余、字词乱序和指代混乱等规律构造中文语法纠错的伪训练数据,通过这些平行数据训练端到端的序列到序列模型,从而实现中文语法纠错的功能。4.根据权利要求1所述的一种文本审校的方法,其特征在于,步骤S3)所述的规则纠错识别并纠正常见成语中的字词误用、字词缺失、字词冗余...

【专利技术属性】
技术研发人员:邓彪翟飞飞朱军楠
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1