文本纠错方法、文本纠错装置及电子设备制造方法及图纸

技术编号:34149189 阅读:75 留言:0更新日期:2022-07-14 19:42
本发明专利技术提供一种文本纠错方法、文本纠错装置及电子设备,涉及自然语言处理技术领域,所述方法包括获取目标待纠错文本;将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;基于所述目标错词和所述目标纠正词,得到目标纠正文本。本发明专利技术提供的文本纠错方法通过根据历史待纠错文本的专有词纠错和音近词纠错的结果来对目标文本纠错模型进行训练,能够提升目标文本纠错模型针对专有词和音近词的纠错识别准确性和纠正结果的准确性,提高了目标文本纠错模型的识别准确度,进而能更好地满足特定场景下的文本纠错需求。定场景下的文本纠错需求。定场景下的文本纠错需求。

【技术实现步骤摘要】
文本纠错方法、文本纠错装置及电子设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本纠错方法、文本纠错装置及电子设备。

技术介绍

[0002]文本纠错是自然语言处理任务的基础,通常用于文本分类、机器翻译等任务前置。对于智能客服系统来说,有效的纠错可以提升客服的回复质量,同时可以对客服的对话质量监督,提升客户体验。
[0003]对于客服系统,客服回复文本以及客户对话文本通常涉及产品的专有词以及一些口语化词语。相关技术中,利用现有的纠错模型在对文本进行纠错的过程中难以兼顾专有词和口语化词语的纠错准确度,误识别率高。因此,亟需提高现有的文本纠错方法的准确度。

技术实现思路

[0004]本专利技术提供一种文本纠错方法、文本纠错装置及电子设备,用以解决现有技术中文本纠错识别准确性不高的缺陷,实现同时对专有词和口语化词语的精准识别与纠错。
[0005]本专利技术提供一种文本纠错方法,包括:获取目标待纠错文本;将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;基于所述目标错词和所述目标纠正词,得到目标纠正文本;所述目标文本纠错模型是以历史待纠错文本为样本,以所述历史待纠错文本的历史错词和历史纠正词为标签训练得到的;所述历史错词包括第一错词和第二错词,所述历史纠正词包括第一纠正词和第二纠正词;所述第一错词和所述第一纠正词是对所述历史待纠错文本进行专有词纠错确定的;所述第二错词和所述第二纠正词是对所述历史待纠错文本进行音近词纠错确定的。r/>[0006]根据本专利技术提供的一种文本纠错方法,所述对所述历史待纠错文本进行专有词纠错,包括:对所述历史待纠错文本进行分词处理,得到待识别词语;在错词库中查询所述待识别词语,所述错词库包括错词和所述错词对应的纠正词;在查询到所述待识别词语的情况下,将所述待识别词语确认为所述第一错词,并将所述错词库中与所述第一错词对应的纠正词确定为所述第一纠正词。
[0007]根据本专利技术提供的一种文本纠错方法,所述在错词库中查询所述待识别词语之后,还包括:在未查询到所述待识别词语的情况下,从所有所述待识别词语中确定第三错词;基于所述第三错词,确定所述第三错词对应的所述历史待纠错文本的困惑度;将所述困惑度大于第一预设值的所述第三错词确定为所述第一错词,并对所述第一错词纠错得到所述第一纠正词。
[0008]根据本专利技术提供的一种文本纠错方法,所述从所有所述待识别词语中确定第三错词,包括:在属性词语词典中查询所有所述待识别词语,所述属性词语词典至少包括人名词语、地名词语和机构团体名词语;在未查询到所述待识别词语的情况下,将所述待识别词语确定为所述第三错词。
[0009]根据本专利技术提供的一种文本纠错方法,所述对所述历史待纠错文本进行音近词纠错,包括:确定所述历史待纠错文本的拼音序列;基于所述历史待纠错文本的拼音序列,确定所述历史待纠错文本的错字和纠正字;基于所述历史待纠错文本的错字和纠正字,确定所述第二错词和所述第二纠正词。
[0010]本专利技术还提供一种文本纠错装置,包括:获取模块,用于获取目标待纠错文本;第一处理模块,用于将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;第二处理模块,用于基于所述目标错词和所述目标纠正词,得到目标纠正文本;所述目标文本纠错模型是以历史待纠错文本为样本,以所述历史待纠错文本的历史错词和历史纠正词为标签训练得到的;所述历史错词包括第一错词和第二错词,所述历史纠正词包括第一纠正词和第二纠正词;所述第一错词和所述第一纠正词是对所述历史待纠错文本进行专有词纠错确定的;所述第二错词和所述第二纠正词是对所述历史待纠错文本进行音近词纠错确定的。
[0011]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本纠错方法。
[0012]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本纠错方法。
[0013]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本纠错方法。
[0014]本专利技术提供的文本纠错方法、文本纠错装置及电子设备,通过根据历史待纠错文
本的专有词纠错和音近词纠错的结果来对目标文本纠错模型进行训练,能够提升目标文本纠错模型针对专有词和音近词的纠错识别准确性和纠正结果的准确性,提高了目标文本纠错模型的识别准确度,进而能更好地满足特定场景下的文本纠错需求。
附图说明
[0015]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术提供的文本纠错方法的流程示意图;图2是本专利技术提供的文本纠错装置的结构示意图;图3是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0017]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]下面结合图1

图3描述本专利技术的文本纠错方法、文本纠错装置及电子设备。
[0019]本专利技术实施例的文本纠错方法的执行主体可以是控制器,当然,在另一些实施例中,执行主体还可以是服务器,此处对执行主体的类型不做限制。下面以控制器为执行主体来对本专利技术实施例的文本纠错方法进行描述。
[0020]参照图1,本专利技术实施例的文本纠错方法主要包括步骤110、步骤120和步骤130。
[0021]步骤110,获取目标待纠错文本。
[0022]可以理解的是,目标待纠错文本可以是采用各种书面语言或者口语化语言表现的文本。目标待纠错文本可以包含一个句子、一个段落或者一篇文章等,此处对目标待纠错文本的形式不作限制。
[0023]对于客服系统,目标待纠错文本可以是人工客服或者机器人客服回复客户的文本,还可以是客户向机器人客服发送的对话文本。
[0024]在此种情况下,目标待纠错文本中包含大量的产品或者客户购买的服务相关的专有词。
[0025]专有词是在特定的领域被广泛使用的词语。不同的领域具有不同的专有词。
[0026]例如,对于出售不粘锅的商家,客服系统的文本中会经常出现“铁氟龙”或者“特氟龙”等与不粘锅材质有关的专有词。
[0027]由于相关技术中,纠错词库中专有词的覆盖程度不高,因而无法针对特定场景下专有词进行纠错。即便一些纠错模型可以对专本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:获取目标待纠错文本;将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;基于所述目标错词和所述目标纠正词,得到目标纠正文本;所述目标文本纠错模型是以历史待纠错文本为样本,以所述历史待纠错文本的历史错词和历史纠正词为标签训练得到的;所述历史错词包括第一错词和第二错词,所述历史纠正词包括第一纠正词和第二纠正词;所述第一错词和所述第一纠正词是对所述历史待纠错文本进行专有词纠错确定的;所述第二错词和所述第二纠正词是对所述历史待纠错文本进行音近词纠错确定的。2.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述历史待纠错文本进行专有词纠错,包括:对所述历史待纠错文本进行分词处理,得到待识别词语;在错词库中查询所述待识别词语,所述错词库包括错词和所述错词对应的纠正词;在查询到所述待识别词语的情况下,将所述待识别词语确认为所述第一错词,并将所述错词库中与所述第一错词对应的纠正词确定为所述第一纠正词。3.根据权利要求2所述的文本纠错方法,其特征在于,所述在错词库中查询所述待识别词语之后,还包括:在未查询到所述待识别词语的情况下,从所有所述待识别词语中确定第三错词;基于所述第三错词,确定所述第三错词对应的所述历史待纠错文本的困惑度;将所述困惑度大于第一预设值的所述第三错词确定为所述第一错词,并对所述第一错词纠错得到所述第一纠正词。4.根据权利要求3所述的文本纠错方法,其特征在于,所述从所有所述待识别词语中确定第三错词,包括:在属性词语词典中查询所有所述待识别词语,所述属性词语词典至少包括人名词语、地名词语和机构团体名词语;在未查询到所述待识别词语的情况下,将所述待识别词语确定为所述第三错词。5.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述历史待纠错文本进行音近词纠错,包括:确定所述历史待纠错文本的拼音序列;基于所述历史待纠错文本的拼音序列,...

【专利技术属性】
技术研发人员:耿璇侯晋峰
申请(专利权)人:北京沃丰时代数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1