一种基于分词增强的中文错字校正方法及系统技术方案

技术编号:33624281 阅读:15 留言:0更新日期:2022-06-02 00:52
发明专利技术涉及一种基于分词增强的中文错字校正方法及系统,中文错字校正方法包括以下步骤,S1、获取包含中文错字的原始文本;S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;S3、利用纠正模块中预先训练的文本编码模型,根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态;S4、利用纠正模块中的纠正网络模块,根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。本方法可预测目标文本的分词结果,在原始文本存在错别字的情况下,能获得正确的分词结果,为纠正过程提供有效信息,确保目标文本的正确性。文本的正确性。文本的正确性。

【技术实现步骤摘要】
一种基于分词增强的中文错字校正方法及系统


[0001]本专利技术涉及计算机文字处理
,尤其涉及一种基于分词增强的中文错字校正方法及系统。

技术介绍

[0002]当中文文本中出现错别字时,将会影响文本的语义表达,错别字的出现在许多场景中会造成一定的不良影响。中文拼写检查在搜索优化,新闻稿校对,非母语学习者文本校正上都有大量应用,是自然语言处理中的一项重要任务。
[0003]早期的中文拼写检查方法遵循错误发现,候选召回,候选排序的方式,通过语言模型、词表以及大量人工设计的规则进行纠错,在精度无法令人满意。随着深度学习的发展,尤其是预训练语言模型的发展与广泛应用,基于深度学习的中文拼写检查方法成为主流。
[0004]目前的大部分方法都将中文拼写检查视为序列标注任务,采用非自回归的方式进行预测。其中一个研究热点就是融入字符的字音字形特征或融入字符间的相似性。为了达到这一目的,出现了各式各样的方法,其中不乏复杂的字音字形编码结构。但现有的方法都忽略了错别字的出现常常会影响文本的分词这一现象,同时常规的分词工具无法根据含错误字符的文本预测正确的分词结果。

技术实现思路

[0005]因此,本专利技术要解决的技术问题在于克服分词工具无法根据错误文本预测正确的分词结果的问题,从而提供一种基于分词增强的中文拼写检查方法及系统。
[0006]为解决上述技术问题,本专利技术公开实施例至少提供一种基于分词增强的中文错字校正方法及系统。
[0007]第一方面,提供一种基于分词增强的中文错字校正方法,包括以下步骤,S1、获取包含中文错字的原始文本;S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;S3、利用纠正模块中预先训练的文本编码模型,根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态;S4、利用纠正模块中的纠正网络模块,根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。
[0008]可选的,所述S2包括,根据原始文本获得与原始文本对应的字符序列、分段序列和位置序列;根据字符序列、分段序列和位置序列计算嵌入向量;根据嵌入向量抽取文本的语义表示,得到第一隐藏状态。
[0009]可选的,按照下述公式预测分词结果:,式中H为第一隐藏状态,W1与b1通过训练得到。
[0010]可选的,所述S3包括:根据原始文本,获得与原始文本对应的字符序列、位置序列;根据分词结果、字符序列、位置序列通过文本编码模型获取原始文本的第二隐藏状态;将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态。
[0011]可选的,所述文本编码模型是基于BERT继续预训练获得的,训练方法为:以大规模语料为基础,为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表,音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符;为大规模语料中的每一个基础词语生成音近词语初始候选列表;音近词语初始候选列表中的词语为候选词语;计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、字形综合得分,为基础字符生成音近字候选列表、形近字候选列表;计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合得分,为基础词语生成音近词语候选列表;获取不包含错别字的训练原始文本;使用LAC模型获取训练原始文本的文本分词;在训练原始文本的字符中随机挑选设定比例的字符作为被替换字符;被替换字符包括字符和词语;将被替换字符中的字符与基础字符对应,在相应的音近字候选列表、形近字候选列表中选择候选字符作为替换字符,候选列表中每个候选字符的分数作为其被选中的概率。
[0012]将被替换字符中的词语与基础词语对应,在相应的音近词语候选列表中选择候选词语作为替换词语,候选列表中每个候选词语的分数作为其被选中的概率。
[0013]替换前的训练原始文本作为训练目标文本,替换后的训练原始文本作为输入的训练原始文本,由此构成的若干句子对作为训练集;使用替换前的文本分词替换原始BERT模型嵌入层的分段嵌入信息,并进行训练;训练的优化目标是根据输入的训练原始文本预测与之对应的训练目标文本,训练生成文本编码模型。
[0014]第二方面,本专利技术公开实施例还提供一种基于分词增强的中文错字校正系统包括:分词模块,用于根据原始文本预测目标文本的分词结果;纠正模块,用于分词结果作为额外的信息对原始文本进行纠正,并输出目标文本。
[0015]可选的,所述分词模块包括:第一文本编码模块,用于获取原始文本的第一隐藏状态;分词网络模块,用于根据原始文本的第一隐藏状态,预测目标文本的分词结果。
[0016]可选的,所述纠正模块包括:第二文本编码模块,用于利用预先训练的文本编码模型以分词结果作为额外的信息获取原始文本的第二隐藏状态,并将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态;纠正网络模块,用于根据最终隐藏状态预测并输出目标文本。
[0017]第三方面,本专利技术公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行基于分词增强的中文拼写检查方法所述的方法。
[0018]第四方面,本专利技术公开实施例还提供一种计算机设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如基于分词增强的中文拼写检查方法。
[0019]有益效果:本专利技术公开的一种基于分词增强的中文错字校正方法,根据所述原始文本抽取其语义特征获取第一隐藏状态预测目标文本的分词结果,在原始文本存在错别字的情况下,能获得正确的分词结果,为纠正过程提供有效信息,确保目标文本的正确性。
附图说明
[0020]下面结合附图和具体实施例对本专利技术作出进一步详细说明。
[0021]图1为本公开一示例性实施例的基于分词增强的中文错字校正方法的流程图;图2为本公开另一示例性实施例的基于分词增强的中文错字校正方法的流程图;图3为本公开一示例性实施例的基于分词增强的中文错字校正系统的结构框图。
[0022]图4为本公开一示例性实施例的一种计算机设备的结构示意图。
具体实施方式
[0023]现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
[0024]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分词增强的中文错字校正方法,其特征在于,包括以下步骤,S1、获取包含中文错字的原始文本;S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;S3、利用纠正模块中预先训练的文本编码模型,根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态;S4、利用纠正模块中的纠正网络模块,根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。2.根据权利要求1所述的基于分词增强的中文错字校正方法,其特征在于,所述S2包括,根据原始文本获得与原始文本对应的字符序列、分段序列和位置序列;根据字符序列、分段序列和位置序列计算第一嵌入向量;根据第一嵌入向量抽取文本的语义表示,得到第一隐藏状态。3.根据权利要求1所述的基于分词增强的中文错字校正方法,其特征在于,按照下述公式预测分词结果:,式中S为分词结果,H为第一隐藏状态,W1与b1通过训练得到。4.根据权利要求1所述的基于分词增强的中文错字校正方法,其特征在于,所述S3包括:根据原始文本,获得与原始文本对应的字符序列、位置序列;根据分词结果、字符序列、位置序列获取原始文本的第二隐藏状态;将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态。5.根据权利要求4所述的基于分词增强的中文错字校正方法,其特征在于,所述文本编码模型是基于BERT模型继续预训练获得的,训练方法为:以大规模语料为基础,为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表,音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符;为大规模语料中的每一个基础词语生成音近词语初始候选列表;音近词语初始候选列表中的词语为候选词语;计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、字形综合得分,为基础字符生成音近字候选列表、形近字候选列表;计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合得分,为基础词语生成音近词语候选列表;获取不包含错别字的训练原始文本...

【专利技术属性】
技术研发人员:李芳芳单悠然黄惟康占英王青
申请(专利权)人:长沙市智为信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1