一种基于分词增强的中文错字校正方法及系统技术方案

技术编号：33624281 阅读：38 留言：0更新日期：2022-06-02 00:52

发明专利技术涉及一种基于分词增强的中文错字校正方法及系统，中文错字校正方法包括以下步骤，S1、获取包含中文错字的原始文本；S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态，并根据所述原始文本的第一隐藏状态预测目标文本的分词结果；S3、利用纠正模块中预先训练的文本编码模型，根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态；S4、利用纠正模块中的纠正网络模块，根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。本方法可预测目标文本的分词结果，在原始文本存在错别字的情况下，能获得正确的分词结果，为纠正过程提供有效信息，确保目标文本的正确性。文本的正确性。文本的正确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分词增强的中文错字校正方法及系统

[0001]本专利技术涉及计算机文字处理
，尤其涉及一种基于分词增强的中文错字校正方法及系统。

技术介绍

[0002]当中文文本中出现错别字时，将会影响文本的语义表达，错别字的出现在许多场景中会造成一定的不良影响。中文拼写检查在搜索优化，新闻稿校对，非母语学习者文本校正上都有大量应用，是自然语言处理中的一项重要任务。
[0003]早期的中文拼写检查方法遵循错误发现，候选召回，候选排序的方式，通过语言模型、词表以及大量人工设计的规则进行纠错，在精度无法令人满意。随着深度学习的发展，尤其是预训练语言模型的发展与广泛应用，基于深度学习的中文拼写检查方法成为主流。
[0004]目前的大部分方法都将中文拼写检查视为序列标注任务，采用非自回归的方式进行预测。其中一个研究热点就是融入字符的字音字形特征或融入字符间的相似性。为了达到这一目的，出现了各式各样的方法，其中不乏复杂的字音字形编码结构。但现有的方法都忽略了错别字的出现常常会影响文本的分词这一现象，同时常规的分词工具无法...

【技术保护点】

【技术特征摘要】
1.一种基于分词增强的中文错字校正方法，其特征在于，包括以下步骤，S1、获取包含中文错字的原始文本；S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态，并根据所述原始文本的第一隐藏状态预测目标文本的分词结果；S3、利用纠正模块中预先训练的文本编码模型，根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态；S4、利用纠正模块中的纠正网络模块，根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。2.根据权利要求1所述的基于分词增强的中文错字校正方法，其特征在于，所述S2包括，根据原始文本获得与原始文本对应的字符序列、分段序列和位置序列；根据字符序列、分段序列和位置序列计算第一嵌入向量；根据第一嵌入向量抽取文本的语义表示，得到第一隐藏状态。3.根据权利要求1所述的基于分词增强的中文错字校正方法，其特征在于，按照下述公式预测分词结果：，式中S为分词结果，H为第一隐藏状态，W1与b1通过训练得到。4.根据权利要求1所述的基于分词增强的中文错字校正方法，其特征在于，所述S3包括：根据原始文本，获得与原始文本对应的字符序列、位置序列；根据分词结果、字符序列、位置序列获取原始文本的第二隐藏状态；将第一隐藏状态与第二隐藏状态相加，获得最终隐藏状态。5.根据权利要求4所述的基于分词增强的中文错字校正方法，其特征在于，所述文本编码模型是基于BERT模型继续预训练获得的，训练方法为：以大规模语料为基础，为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表，音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符；为大规模语料中的每一个基础词语生成音近词语初始候选列表；音近词语初始候选列表中的词语为候选词语；计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、字形综合得分，为基础字符生成音近字候选列表、形近字候选列表；计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合得分，为基础词语生成音近词语候选列表；获取不包含错别字的训练原始文本...

【专利技术属性】
技术研发人员：李芳芳，单悠然，黄惟，康占英，王青，
申请(专利权)人：长沙市智为信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人