文本纠错方法和系统技术方案

技术编号：35829192 阅读：20 留言：0更新日期：2022-12-03 13:57

本公开提出了一种文本纠错方法和系统。该方法包括：接收待纠错文本；使用多种分词方法将待纠错文本切分成多种粒度的子词序列；对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本；融合各种粒度的候选纠错文本以确定目标纠错文本；以及输出所确定的目标纠错文本。文本。文本。

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错方法和系统

[0001]本公开涉及文本处理领域，具体涉及文本纠错方法和系统。

技术介绍

[0002]文本纠错可应用于越来越多的场景。例如，在金融风险监控名单扫描产品中，识别客户信息或交易信息的错误拼写、或者客户有意修改基本信息如人名、地名、公司名等规避行为，能够提高金融风险监控名单扫描的准确性和风险覆盖率。另外，在搜索场景中，用户在输入搜索词时有可能出现错误，此时也需要进行文本纠错。
[0003]目前文本纠错面临的一个重要挑战是语言特点多样性问题。例如，印尼语与英语发音接近，用户在输入时倾向于按照发音输入，因此很容易将“pampers”错写为“pempes”。此外，越南语有的语音需要使用不同的字母来表示，如c/k/q和d/gi的存在、i和y的并存，拼写上显得有些混乱，容易导致文本错误。
[0004]目前的文本纠错方案大多数着重于单语种纠错，且存在各种缺陷。对于多语种纠错，现有技术尚没有合适的解决方案。
[0005]有鉴于此，期望提供一种针对多语种的改进的文本纠错方法和系统。

技术实现思路

[0006]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。
[0007]本公开提出了一种文本纠错方法，包括：接收待纠错文本；使用多种分词方法将待纠错文本切分成多种...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法，包括：接收待纠错文本；使用多种分词方法将所述待纠错文本切分成多种粒度的子词序列；对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本；融合各种粒度的候选纠错文本以确定目标纠错文本；以及输出所确定的目标纠错文本。2.根据权利要求1所述的方法，所述待纠错文本是多语言文本或单语言文本。3.根据权利要求1所述的方法，对每种粒度的子词序列进行纠错进一步包括：通过纠错模型对每种粒度的子词序列进行纠错，其中所述纠错模型用不同语言的训练数据融合训练。4.根据权利要求3所述的方法，所述训练是通过生成对抗网络来实现的。5.根据权利要求1所述的方法，所述多种分词方法包括以下一者或多者：BIE分词方法、BPE分词方法、字符级分词方法。6.根据权利要求1所述的方法，所述纠错包括纠正以下一种或多种错误：拼写错误、语法错误、逻辑错误。7.根据权利要求1所述的方法，融合各种粒度的候选纠错文本以确定目标纠错文本进一步包括：对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为所述目标纠错文本。8.一种文本纠错系统，包括：接收模块，接收待纠错文本；分词模块，使用多种分词方法将所述待纠错文本切分成...

【专利技术属性】
技术研发人员：孙清清，张天翼，邹泊滔，汤深，赖伟达，钱涛，王爱凌，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人