文本处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:36690970 阅读:29 留言:0更新日期:2023-02-27 19:58
本申请实施例提供了一种文本处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域。在本申请实施例中,本申请实施例可以接收目标文本,并对目标文本进行文本规则检测和模型检测。进一步的,本申请实施例可以根据规则检测的结果和模型检测的结果,对目标文本进行纠错处理,从而确定目标文本对应的纠错文本。其中,由于本申请实施例在对目标文本进行纠错的过程中,既对目标文本进行了文本规则检测,也对目标文本进行了模型检测,因此,本申请实施例可以从多个维度对目标文本进行纠错,实现了对目标文本的全面纠错。现了对目标文本的全面纠错。现了对目标文本的全面纠错。

【技术实现步骤摘要】
文本处理方法、装置、电子设备和可读存储介质


[0001]本申请涉及计算机
,特别是涉及一种文本处理方法、装置、电子设备和可读存储介质。

技术介绍

[0002]目前,用户在通过计算机等电子设备输入文本时,电子设备往往可以针对用户输入的文本进行纠错,即检查、标记或者更正该文本中的错误。
[0003]在相关技术中,相关技术会通过模型实现对文本的纠错,但是,模型处理文本的维度相对单一,即模型无法全面的检测文本中出现的多种类型的错误。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种文本处理方法、装置、电子设备和可读存储介质,以从多个维度对目标文本进行纠错,实现对目标文本的全面纠错。
[0005]第一方面,提供了一种文本处理方法,所述方法包括:
[0006]获取目标文本。
[0007]对所述目标文本进行文本规则检测,确定规则检测结果。
[0008]将所述目标文本输入文本检测模型,确定模型检测结果。
[0009]根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。
[0010]在一些实施例中,所述规则检测结果包括重复字段检测结果。
[0011]所述对所述目标文本进行文本规则检测,确定规则检测结果包括:
[0012]根据预先设置的重复字段检测规则,对所述目标文本进行重复字段检测,以确定重复字段检测结果。
[0013]在一些实施例中,所述规则检测结果包括常见词检测结果。
>[0014]所述对所述目标文本进行文本规则检测,确定规则检测结果包括:
[0015]根据预先设置的常见词词表对所述目标文本进行常见词检测,标记所述目标文本中的非常见词,以确定常见词检测结果。
[0016]在一些实施例中,所述根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本包括:
[0017]根据所述规则检测结果和所述模型检测结果,确定至少一个纠错类型标签。
[0018]根据各所述纠错类型标签分别对应的纠错规则,确定各所述纠错类型标签分别对应的纠错候选集,所述纠错候选集中包括用于更正所述目标文本的候选字或候选词。
[0019]根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。
[0020]在一些实施例中,所述根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本包括:
[0021]根据预先设置的语言模型和各所述纠错候选集,对所述目标文本进行模拟纠错,以确定各所述纠错候选集中的候选字或候选词所对应的评分。
[0022]根据所述评分的大小,确定各所述纠错候选集对应的目标字或者目标词。
[0023]根据各所述纠错候选集对应的目标字或者目标词,对所述目标文本进行更正,以确定所述目标文本对应的纠错文本。
[0024]在一些实施例中,所述纠错类型标签包括发音相似标签、字形相似标签、位置颠倒标签、多字标签、少字标签和助词错误标签中的一项或多项。
[0025]在一些实施例中,所述方法还包括:
[0026]根据预先设置的结果纠正词典,对所述规则检测结果和所述模型检测结果进行校验。
[0027]响应于所述规则检测结果和/或所述模型检测结果命中所述结果纠正词典中的字或词,更新所述规则检测结果和/或所述模型检测结果。
[0028]第二方面,提供了一种文本处理装置,所述装置包括:
[0029]目标文本获取模块,被配置为执行获取目标文本。
[0030]规则检测模块,被配置为执行对所述目标文本进行文本规则检测,确定规则检测结果。
[0031]模型检测模块,被配置为执行将所述目标文本输入文本检测模型,确定模型检测结果。
[0032]纠错模块,被配置为执行根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。
[0033]在一些实施例中,所述规则检测结果包括重复字段检测结果。
[0034]所述规则检测模块具体被配置为执行:
[0035]根据预先设置的重复字段检测规则,对所述目标文本进行重复字段检测,以确定重复字段检测结果。
[0036]在一些实施例中,所述规则检测结果包括常见词检测结果。
[0037]所述规则检测模块具体被配置为执行:
[0038]根据预先设置的常见词词表对所述目标文本进行常见词检测,标记所述目标文本中的非常见词,以确定常见词检测结果。
[0039]在一些实施例中,所述纠错模块具体被配置为执行:
[0040]根据所述规则检测结果和所述模型检测结果,确定至少一个纠错类型标签。
[0041]根据各所述纠错类型标签分别对应的纠错规则,确定各所述纠错类型标签分别对应的纠错候选集,所述纠错候选集中包括用于更正所述目标文本的候选字或候选词。
[0042]根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。
[0043]在一些实施例中,所述纠错模块具体被配置为执行:
[0044]根据预先设置的语言模型和各所述纠错候选集,对所述目标文本进行模拟纠错,以确定各所述纠错候选集中的候选字或候选词所对应的评分。
[0045]根据所述评分的大小,确定各所述纠错候选集对应的目标字或者目标词。
[0046]根据各所述纠错候选集对应的目标字或者目标词,对所述目标文本进行更正,以
确定所述目标文本对应的纠错文本。
[0047]在一些实施例中,所述纠错类型标签包括发音相似标签、字形相似标签、位置颠倒标签、多字标签、少字标签和助词错误标签中的一项或多项。
[0048]在一些实施例中,所述装置还包括:
[0049]校验模块,被配置为执行根据预先设置的结果纠正词典,对所述规则检测结果和所述模型检测结果进行校验。
[0050]更新模块,被配置为执行响应于所述规则检测结果和/或所述模型检测结果命中所述结果纠正词典中的字或词,更新所述规则检测结果和/或所述模型检测结果。
[0051]第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
[0052]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
[0053]在本申请实施例中,本申请实施例可以接收目标文本,并对目标文本进行文本规则检测和模型检测。进一步的,本申请实施例可以根据规则检测的结果和模型检测的结果,对目标文本进行纠错处理,从而确定目标文本对应的纠错文本。其中,由于本申请实施例在对目标文本进行纠错的过程中,既对目标文本进行了文本规则检测,也对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取目标文本;对所述目标文本进行文本规则检测,确定规则检测结果;将所述目标文本输入文本检测模型,确定模型检测结果;以及根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。2.根据权利要求1所述的方法,其特征在于,所述规则检测结果包括重复字段检测结果;所述对所述目标文本进行文本规则检测,确定规则检测结果包括:根据预先设置的重复字段检测规则,对所述目标文本进行重复字段检测,以确定重复字段检测结果。3.根据权利要求1所述的方法,其特征在于,所述规则检测结果包括常见词检测结果;所述对所述目标文本进行文本规则检测,确定规则检测结果包括:根据预先设置的常见词词表对所述目标文本进行常见词检测,标记所述目标文本中的非常见词,以确定常见词检测结果。4.根据权利要求1所述的方法,其特征在于,所述根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本包括:根据所述规则检测结果和所述模型检测结果,确定至少一个纠错类型标签;根据各所述纠错类型标签分别对应的纠错规则,确定各所述纠错类型标签分别对应的纠错候选集,所述纠错候选集中包括用于更正所述目标文本的候选字或候选词;以及根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。5.根据权利要求4所述的方法,其特征在于,所述根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本包括:根据预先设置的语言模型和各所述纠错候选集,对所述目标文本进行模拟纠错,以确定各所述纠错候选集中...

【专利技术属性】
技术研发人员:王亭李志飞
申请(专利权)人:上海墨百意信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1