文本的纠错方法、装置和系统制造方法及图纸

技术编号:24576433 阅读:50 留言:0更新日期:2020-06-21 00:26
本发明专利技术公开了一种文本的纠错方法、装置和系统。其中,该方法包括:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请通过利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词,进而解决了文本纠错准确度低和纠错代价高的技术问题。

Error correction methods, devices and systems of texts

【技术实现步骤摘要】
文本的纠错方法、装置和系统
本专利技术涉及语言信息处理领域,具体而言,涉及一种文本的纠错方法、装置和系统。
技术介绍
随着搜索技术的发展,各种输入法层出不穷。然而,用户在输入文本时,并不一定会对自己的输入进行检查修改,输入的单词中往往会存在拼写错误,拼写错误的单词在人与人的对话过程中,可以由人结合上下文解读其意义,相当于隐含地对文本进行了“纠正”。而对于相似度计算、搜索倒排等计算机系统来说,这样不标准的输入大大增加了输入的稀疏性,对系统性能产生不利的影响。所以一个性能良好的拼写纠错方法、系统是非常有价值的。根据用户输入文本无法得到搜索结果的情况,现有技术提供了几种对用户输入的文本进行纠错的方法:方式1:将用户输入的文本分词与词典中的标准词进行匹配,若完全匹配,则不作处理,若未完全匹配,则查找与用户输入的文本分词相似度最高的标准词,并用该标准词进行搜索,若搜索成功则将该相似度最高的标准词反馈给用户确认,若搜索失败则不作处理。方式2:基于翻译的纠错模型,使用翻译模型对输入进行“翻译”,“翻译”为拼写正确的文本。上述方式虽然都能在一定程度上对查询不成功的文本进行纠错,但是两种方式均存在缺陷。方式1只能对字形相似的分词进行纠错,即只有用户输入的文本分词字形较为准确的情况下才能准确的进行纠错。方式2的训练翻译模型需要大量的标注数据,训练代价非常高昂。因此,现有技术中文本的纠错方法难以满足用户需求。针对现有技术中文本纠错准确度低和纠错代价高的技术问题,目前尚未提出有效的解决方案。专利技术内容本专利技术实施例提供了一种文本的纠错方法、装置和系统,以至少解决现有技术中文本纠错准确度低或纠错代价高的技术问题。根据本专利技术实施例的一个方面,提供了一种文本的纠错方法,包括:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。根据本专利技术实施例的另一方面,还提供了一种文本的纠错装置,包括:获取模块,用于获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;评估模块,用于采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;确定模块,用于根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;纠错模块,用于基于用于进行纠错的至少一个候选词对目标文本进行纠错根据本专利技术实施例的另一方面,还提供了一种存储介质,其中,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。根据本专利技术实施例的另一方面,还提供了一种处理器,其中,处理器用于运行程序,其中,程序运行时执行如下步骤:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。根据本专利技术实施例的另一方面,还提供了一种文本的纠错系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。在本专利技术实施例中,首先获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;再根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;最后基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词。通过语言模型建模上下文信息,有更好的消歧能力,且方法简单开销小,与训练翻译模型相比,本申请无需或仅需非常少量的标注数据,开发成本低,也适用于快速迁移到各个领域,不仅解决了包含声调的文本的纠错问题,还解决了现有技术中文本纠错准确度低和纠错代价高的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了一种用于实现文本的纠错方法的计算机终端(或移动设备)的硬件结构框图;图2是根据本申请实施例1的一种计算机终端(或移动设备)作为客户终端的示意图;图3是根据本申请实施例1的一种可选的文本的纠错方法的流程图;图4是根据本申请实施例1的一种可选的文本的纠错方法的原理图;图5是根据本申请实施例2的一种可选的文本的纠错装置的示意图;以及图6根据本专利技术实施例4的一种可选的计算机终端的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:编辑距离:是指两个字串之间,由一个转换成另一个所需的最少编辑操作次数。语言模型:是一种机器学习模型,用于建模一段连续分词序列的概率分布的模型。实施例1根据本专利技术实施例,提供了一种文本的纠错方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中本文档来自技高网
...

【技术保护点】
1.一种文本的纠错方法,包括:/n获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词;/n采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值;/n根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;/n基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错。/n

【技术特征摘要】
1.一种文本的纠错方法,包括:
获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词;
采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值;
根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;
基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错。


2.根据权利要求1所述的方法,其中,在获取目标文本对应的候选词之前,所述方法还包括:获取目标文本对应的词序列,所述词序列用于表示所述目标文本中的词语,获取目标文本对应的词序列的步骤包括:
对所述目标文本进行归一化处理;
对归一化处理得到的结果进行分词处理,得到所述目标文本对应的词序列。


3.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的词语召回词典,其中,所述词语召回词典包括预设词语的标准形式、所述预设词语的缩写和所述预设词语的错误形式之间的第一对应关系;
在所述词语召回词典中查找所述目标文本中包含的词语,得到第一查找结果;
确定与所述第一查找结果具有第一对应关系的词语为所述目标文本中包含的词语的候选词。


4.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的标准词表中,标准词语的标准形式和所述标准词语的错误形式之间的第二对应关系,其中,通过对预设的标准词表中的标准词语进行变换,得到所述标准词语对应的错误形式,所述变换包括如下一种或多种:对所述标准形式的任意部分进行删除、增加和替换;
在所述第二对应关系中查找所述目标文本中包含的词语,得到第二查找结果;
确定与所述第二查找结果具有所述第二对应关系的词语为所述目标文本中包含的词语的候选词。


5.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的标准词表中,标准词语的标准形式和所述标准词语对应的无声调形式之间的第三对应关系,其中,通过去除所述标准形式的声调标识,得到所述标准词语的无声调形式;
在所述第三对应关系中查找所述目标文本中包含的词语,得到第三查找结果;
确定与所述第三查找结果具有所述第三对应关系的词语为所述目标文本中包含的词语的候选词。


6.根据权利要求1所述的方法,其中,在所述评估方式为第一评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取所述词语与对应的候选词之间的编辑距离,其中,所述编辑距离用于表示由所述词语的字符串转换成所述词语对应的候选词的字符串之间的最少编辑次数;
根据所述词语与对应的候选词之间的编辑距离确定所述候选词的评估值。


7.根据权利要求1所述的方法,其中,在所述评估方式为第二评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取所述词语的词长与所述词语对应的候选词的词长之间的差值;
根据所述差值确定所述候选词的评估值。


8.根据权利要求1所述的方法,其中,在所述评估方式为第三评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取候选词在不同声调形式下出现的概率;
根据所述概率确定所述候选词的评估值。


9.根据权利要求1所述的方法,其中,在所述评估方式为第四评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评...

【专利技术属性】
技术研发人员:包祖贻李辰徐光伟刘恒友李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1