一种文本审校的方法技术

技术编号：38728047 阅读：7 留言：0更新日期：2023-09-08 23:19

本发明专利技术方法提供一种文本审校的方法，针对中文场景的文本审校方法，该方法借助深度神经网络技术和完备的中文纠错规则，可以实现中文拼写纠错、语法纠错、成语纠错、人名地名纠错、古诗俗语纠错、标点符号检测、日期格式检测等功能，通过对错误类型进行分类以及采取不同的通道进行处理，本方法可以有效可控地对含错中文文本进行校对。文文本进行校对。文文本进行校对。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本审校的方法

[0001]本专利技术方法涉及人工智能、拼音纠错、自然语言处理，特别是涉及一种文本审校的方法。

技术介绍

[0002]随着移动终端和互联网的快速发展，信息数字化逐渐成为不可逆转的时代潮流，而中文文本数字化的过程更是面临着诸多挑战。现阶段，中文文本数字化的手段主要包括输入法输入、图像文字识别(OCR)或语音识别(ASR)，每一种方法都存在输入误差的问题，即在输入过程中会引入中文拼写错误、语法错误或格式错误。在通用领域中，中文文本纠错问题是一直在寻求解决的问题。当前由于用户输入随意及手写输入法易出错等原因，错误串在输入文本中占比高达10％
‑
15％，这也使得中文文本纠错模块必要性凸显。而在垂直领域中，由于用户对垂直领域的术语不够了解，因此用户创作文本中往往含有更大比例的含错内容。

技术实现思路

[0003]鉴于以上所述现有技术的缺点，在本专利技术方法系统中，为纠正文本数字化过程中引入的文本错误，本专利技术方法提出一种针对中文场景的文本审校方法，该方法借助深度神经网络技术和完备的中文纠错规则，可以实现中文拼写纠错、语法纠错、成语纠错、人名地名纠错、古诗俗语纠错、标点符号检测、日期格式检测等功能，通过对错误类型进行分类以及采取不同的通道进行处理，本方法可以有效可控地对含错中文文本进行校对。
[0004]为实现上述目的及其他相关目的，本专利技术方法提供一种文本审校的方法，包括步骤：
[0005]S1)输入文本，按照换行符分段；
[0006]S2)检测...

【技术保护点】

【技术特征摘要】
1.一种文本审校的方法，包括步骤：S1)输入文本，按照换行符分段；S2)检测全角或者半角符号混用以及标点符号是否配对；S3)规则纠错；S4)GEC模型纠错；S5)合并结果并输出。2.根据权利要求1所述的一种文本审校的方法，其特征在于，步骤S3)所述的规则纠错识别并纠正中文文本中的字词误用错误，首先基于音近字和形近字字典针对干净的中文文本进行随机替换构造中文拼写纠错的伪训练数据，通过这些平行数据训练端到端的序列到序列模型，从而实现中文拼写纠错的功能。3.根据权利要求1所述的一种文本审校的方法，其特征在于，步骤S3)所述的规则纠错识别并纠正中文文本中的字词缺失、字词冗余、字词乱序和指代混乱等语法错误，进行随机以字词缺失、字词冗余、字词乱序和指代混乱等规律构造中文语法纠错的伪训练数据，通过这些平行数据训练端到端的序列到序列模型，从而实现中文语法纠错的功能。4.根据权利要求1所述的一种文本审校的方法，其特征在于，步骤S3)所述的规则纠错识别并纠正常见成语中的字词误用、字词缺失、字词冗余...

【专利技术属性】
技术研发人员：邓彪，翟飞飞，朱军楠，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人