文本纠错方法和系统技术方案

技术编号:35829192 阅读:20 留言:0更新日期:2022-12-03 13:57
本公开提出了一种文本纠错方法和系统。该方法包括:接收待纠错文本;使用多种分词方法将待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。文本。文本。

【技术实现步骤摘要】
文本纠错方法和系统


[0001]本公开涉及文本处理领域,具体涉及文本纠错方法和系统。

技术介绍

[0002]文本纠错可应用于越来越多的场景。例如,在金融风险监控名单扫描产品中,识别客户信息或交易信息的错误拼写、或者客户有意修改基本信息如人名、地名、公司名等规避行为,能够提高金融风险监控名单扫描的准确性和风险覆盖率。另外,在搜索场景中,用户在输入搜索词时有可能出现错误,此时也需要进行文本纠错。
[0003]目前文本纠错面临的一个重要挑战是语言特点多样性问题。例如,印尼语与英语发音接近,用户在输入时倾向于按照发音输入,因此很容易将“pampers”错写为“pempes”。此外,越南语有的语音需要使用不同的字母来表示,如c/k/q和d/gi的存在、i和y的并存,拼写上显得有些混乱,容易导致文本错误。
[0004]目前的文本纠错方案大多数着重于单语种纠错,且存在各种缺陷。对于多语种纠错,现有技术尚没有合适的解决方案。
[0005]有鉴于此,期望提供一种针对多语种的改进的文本纠错方法和系统。

技术实现思路

[0006]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。
[0007]本公开提出了一种文本纠错方法,包括:接收待纠错文本;使用多种分词方法将待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。
[0008]在本公开的一实施例中,待纠错文本是多语言文本或单语言文本。
[0009]在本公开的一实施例中,对每种粒度的子词序列进行纠错进一步包括:通过纠错模型对每种粒度的子词序列进行纠错,其中该纠错模型用不同语言的训练数据融合训练。
[0010]在本公开的一实施例中,训练是通过生成对抗网络来实现的。
[0011]在本公开的一实施例中,多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。
[0012]在本公开的一实施例中,纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。
[0013]在本公开的一实施例中,融合各种粒度的候选纠错文本以确定目标纠错文本进一步包括:对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为目标纠错文本。
[0014]本公开还提出了一种文本纠错系统,包括:接收模块,接收待纠错文本;分词模块,使用多种分词方法将待纠错文本切分成多种粒度的子词序列;候选纠错文本模块,对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;目标纠错文本模块,融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出模块,输出所确定的目标纠错文本。
[0015]在本公开的一实施例中,待纠错文本是多语言文本或单语言文本。
[0016]在本公开的一实施例中,候选纠错文本模块还被配置成:通过纠错模型对每种粒度的子词序列进行纠错,其中该纠错模型用不同语言的训练数据融合训练。
[0017]在本公开的一实施例中,训练是通过生成对抗网络来实现的。
[0018]在本公开的一实施例中,多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。
[0019]在本公开的一实施例中,纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。
[0020]在本公开的一实施例中,目标纠错文本模块还被配置成:对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为目标纠错文本。
[0021]本公开还提出了一种计算机可读存储介质,其存储计算机程序,该计算机程序能被处理器执行以执行前述文本纠错方法。
[0022]本公开的技术方案提出了一种统一模型以解决不同语种的纠错问题。通过多粒度表征融合,不需要处理未登录词(Out

of

Vocabulary)问题。同时,多语言融合训练和生成对抗网络能够学习不同语言拼写特性,进一步提高纠错效果。
附图说明
[0023]结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显。在附图中,相同附图标记始终作相应标识。要注意,所描述的附图只是示意性的并且是非限制性的。在附图中,一些部件的尺寸可放大并且出于解说性的目的不按比例绘制。
[0024]图1示出了本公开一实施例的文本纠错的系统示意图。
[0025]图2示出了使用BIE分词的半字符级循环神经网络(scRNN)模型的示意图。
[0026]图3示出了本公开一实施例的Encoder

Decoder模块的示意图。
[0027]图4示出了本公开一实施例的文本纠错方法的示例性流程图。
[0028]图5示出了本公开一实施例的生成对抗网络的示意图。
[0029]图6示出了本公开一实施例的文本纠错架构的示意图。
[0030]图7示出了本公开一实施例的文本纠错系统的框图。
[0031]图8示出了本公开一实施例的包括文本纠错系统的设备框图。
具体实施方式
[0032]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图对本公开进一步详细说明。在以下详细描述中,阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节中的一些或全部的情况下实践所描述的实施例。在其它示例性实施例中,没有详细描述公知的结构,以避免不必要地模糊本公开的概念。应当理解,本文所描述的具体实施例
仅仅用以解释本公开,并不用于限定本公开。同时,在不冲突的情况下,实施例所描述的各个方面可以任意组合。
[0033]对于文本错误,现有技术提供了若干文本纠错方法。
[0034]规则算法采用一些人为定义的规则来进行错误查找和错误纠正。这种算法需要较多的人工干预,并且需要事先知道有哪些错误情况以及简写情况才能设置规则。
[0035]n

gram算法假设一个字或词的出现仅与前n个词相关(n通过人为设定),句子整体的概率等于所有词语搭配概率的乘积。词语概率的计算方法使用了概率论中的条件概率。此外,n

gram算法用频数计算来计算频率代替概率。通过计算一个词语的n

gram分数来评估该词语是否合理,以此检测错误词语。n

gram算法利用了上下文信息,但是在文本纠错的精度方面受限。
[0036]Word2Vec算法生成一个包含语料库中的每个独特单词的向量空间(通常为几百维),在语料库中拥有共同上下文的单词在向量空间中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,包括:接收待纠错文本;使用多种分词方法将所述待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。2.根据权利要求1所述的方法,所述待纠错文本是多语言文本或单语言文本。3.根据权利要求1所述的方法,对每种粒度的子词序列进行纠错进一步包括:通过纠错模型对每种粒度的子词序列进行纠错,其中所述纠错模型用不同语言的训练数据融合训练。4.根据权利要求3所述的方法,所述训练是通过生成对抗网络来实现的。5.根据权利要求1所述的方法,所述多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。6.根据权利要求1所述的方法,所述纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。7.根据权利要求1所述的方法,融合各种粒度的候选纠错文本以确定目标纠错文本进一步包括:对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为所述目标纠错文本。8.一种文本纠错系统,包括:接收模块,接收待纠错文本;分词模块,使用多种分词方法将所述待纠错文本切分成...

【专利技术属性】
技术研发人员:孙清清张天翼邹泊滔汤深赖伟达钱涛王爱凌
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1