文本纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33549099 阅读:21 留言:0更新日期:2022-05-26 22:44
本申请适用于数据处理技术领域,提供了文本纠错方法、装置、电子设备及存储介质,其中方法包括:获取错误文本;根据所述错误文本和预设的缺字召回列表,确定所述错误文本对应的第一目标数目个第一候选纠正文本;其中所述缺字召回列表包含能够与所述错误文本中的字构造为词语的预设数目个字;根据所述错误文本和预设的MacBert模型,确定所述错误文本对应的第二目标数目个第二候选纠正文本;根据所述第一目标数目个第一候选纠正文本和所述第二目标数目个第二候选纠正文本,确定所述错误文本对应的目标纠正文本。本申请实施例能够自动准确地对缺字和/或词的文本进行纠错。地对缺字和/或词的文本进行纠错。地对缺字和/或词的文本进行纠错。

【技术实现步骤摘要】
文本纠错方法、装置、电子设备及存储介质


[0001]本申请属于数据处理
,尤其涉及一种文本纠错方法、装置、电子 设备及存储介质。

技术介绍

[0002]目前,社交工具、新闻稿件或者其它载体的文本内容中,常常存在着缺字 少词的错误。通常,这些文本中缺字少词的错误需要通过人工检查校验发现后, 再人为地进行纠正。然而,这种方式人工成本高,并且准确性和效率较低。

技术实现思路

[0003]有鉴于此,本申请实施例提供了文本纠错方法、装置、电子设备及存储介 质,以解决现有技术中如何自动准确地对缺字和/或词的文本进行纠错的问题。
[0004]本申请实施例的第一方面提供了一种文本纠错方法,包括:
[0005]获取错误文本;
[0006]根据所述错误文本和预设的缺字召回列表,确定所述错误文本对应的第一 目标数目个第一候选纠正文本;其中所述缺字召回列表包含能够与所述错误文 本中的字构造为词语的预设数目个字;
[0007]根据所述错误文本和预设的MacBert模型,确定所述错误文本对应的第二 目标数目个第二候选纠正文本;
[0008]根据所述第一目标数目个第一候选纠正文本和所述第二目标数目个第二候 选纠正文本,确定所述错误文本对应的目标纠正文本。
[0009]本申请实施例的第二方面提供了一种文本纠错装置,包括:
[0010]获取单元,用于获取错误文本;
[0011]第一纠正单元,用于根据所述错误文本和预设的缺字召回列表,确定所述 错误文本对应的第一目标数目个第一候选纠正文本;其中所述缺字召回列表包 含能够与所述错误文本中的字构造为词语的预设数目个字;
[0012]第二纠正单元,用于根据所述错误文本和预设的MacBert模型,确定所述 错误文本对应的第二目标数目个第二候选纠正文本;
[0013]目标纠正文本确定单元,用于根据所述错误文本和预设的MacBert模型, 确定所述错误文本对应的第二目标数目个第二候选纠正文本。
[0014]本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及 存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执 行所述计算机程序时,使得电子设备实现如所述文本纠错方法的步骤。
[0015]本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可 读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得电子 设备实现如所述文本纠错方法的步骤。
[0016]本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品 在电子设备上运行时,使得电子设备执行如第一方面中所述的文本纠错方法。
[0017]本申请实施例与现有技术相比存在的有益效果是:本申请实施例中,在获 取错误文本后,根据该错误文本和预设的缺字召回列表,确定该错误文本对应 的第一目标数目个第一候选纠正文本,以及根据该错误文本和预设的MacBert 模型,确定所述错误文本对应的第二目标数目个第二候选纠正文本。之后,根 据该第一候选纠正文本和第二候选纠正文本,确定该错误文本对应的目标纠正 文本。通过该方法,能够在无需依赖人工校对的情况下,自动高效地实现错误 文本的纠错;并且,由于目标纠正文本是基于第一候选纠正文本和第二候选纠 正文本得到的,而第一候选纠正文本是基于预设的缺字召回列表确定的,第二 候选纠正文本是基于预设的MacBert模型得到的,因此目标纠正文本是融合缺 字召回列表和MacBert模型两种不同的纠正方式得到的纠正文本,从而能够综 合两种纠正方式提高文本纠错的准确性。
附图说明
[0018]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本申请实施例提供的一种文本纠错方法的实现流程示意图;
[0020]图2是本申请实施例提供的一种缺字召回列表的示例图;
[0021]图3是本申请实施例提供的一种文本纠错装置的示意图;
[0022]图4是本申请实施例提供的一种电子设备的示意图。
具体实施方式
[0023]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术 之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当 清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中, 省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节 妨碍本申请的描述。
[0024]为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
[0025]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示 所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多 个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0026]还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施 例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使 用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个
”ꢀ
及“该”意在包括复数形式。
[0027]还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且 包括这些组合。
[0028]如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据 上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。 类似地,短语“如果确
定”或“如果检测到[所描述条件或事件]”可以依据上 下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件 或事件]”或“响应于检测到[所描述条件或事件]”。
[0029]另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于 区分描述,而不能理解为指示或暗示相对重要性。
[0030]目前,社交工具、新闻稿件或者其它载体的文本内容中,常常存在着各种 各样的文本错误,包括谐音字词错误、混淆音字词错误、字词顺序颠倒错误、 缺字和/或词错误、形似字错误、语法错误等。其中,对于缺字和/或词错误通常 需要由人工检查发现后再人为地进行纠正。例如,通过人工检查出句子“我在 麦当劳汉堡”是缺字少词的错误句子,通过检查和纠正,可以得到对应的纠正 文本:“我在麦当劳吃汉堡”。然而,通过人工检查和纠正的方式人工成本高, 并且准确性和效率较低。
[0031]为了解决上述的技术问题,本申请实施例提供了一种文本纠错方法、装置、 电子设备及存储介质,包括:获取错误文本;根据所述错误文本和预设的缺字 召回列表,确定所述错误文本对应的第一目标数目个第一候选纠正文本;其中 所述缺字召回列表包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:获取错误文本;根据所述错误文本和预设的缺字召回列表,确定所述错误文本对应的第一目标数目个第一候选纠正文本;其中所述缺字召回列表包含能够与所述错误文本中的字构造为词语的预设数目个字;根据所述错误文本和预设的MacBert模型,确定所述错误文本对应的第二目标数目个第二候选纠正文本;根据所述第一目标数目个第一候选纠正文本和所述第二目标数目个第二候选纠正文本,确定所述错误文本对应的目标纠正文本。2.如权利要求1所述的文本纠错方法,其特征在于,所述缺字召回列表包括第一链表和第二链表,其中,所述第一链表中的字用于构造出以所述错误文本中的字为开头的词语;所述第二链表中的字用于构造出以所述错误文本中的字为结尾的词语。3.如权利要求1所述的文本纠错方法,其特征在于,所述根据所述错误文本和预设的缺字召回列表,确定所述错误文本对应的第一目标数目个第一候选纠正文本,包括:根据所述缺字召回列表,为所述错误文本中的每个字确定对应的所述预设数目个初步纠正文本,得到第三目标数目个所述初步纠正文本;基于n

gram模型分别求取各个所述初步纠正文本对应的第一目标困惑度,并将所述第一目标困惑度小于所述错误文本对应的原始困惑度的所述初步纠正文本作为所述第一候选纠正文本,得到所述第一目标数目个所述第一候选纠正文本。4.如权利要求1所述的文本纠错方法,其特征在于,所述根据所述错误文本和预设的MacBert模型,确定所述错误文本对应的第二目标数目个第二候选纠正文本,包括:通过所述MacBert模型依次在所述错误文本的每个位置添加掩膜,得到第四目标数目个掩膜文本;基于n

gram模型分别求取各个所述掩膜文本对应的第二目标困惑度,并将所述第二目标困惑度小于所述错误文本对应的原始困惑度的所述掩膜文本作为所述第二候选纠正文本,得到第二目标数目个所述第二候选纠正文本。5.如权利要求1所述的文本纠错方法,其特征在于,所述根据所述第一目标数目个第一候选纠正文本和所述第二目标数目个第二候选纠正...

【专利技术属性】
技术研发人员:李圆法蚁韩羚余晓填王孝宇
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1