一种英文单词拼写纠错方法、装置、设备及可读存储介质制造方法及图纸

技术编号:22330354 阅读:30 留言:0更新日期:2019-10-19 12:19
本发明专利技术公开了一种英文单词拼写纠错方法,该方法包括以下步骤:获取具有待纠错单词的目标单词序列,以及待纠错单词在目标单词序列中对应的相邻词;利用编辑距离从正确词库中获取待纠错单词的候选集;利用基于全局词频统计的向量化词库,计算相邻词与候选集中的每个候选词之间的相邻共现参数值;利用相邻共现参数值从候选集中确定出正确词,并将目标单词序列中的待纠错单词替换为正确词。该方法,能够结合上下文信息从候选集中筛选得到替换待纠错词的正确词,可能够提高拼写纠错准确率。本发明专利技术还公开了一种英文单词拼写纠错装置、设备及可读存储介质,具有相应的技术效果。

A spelling correction method, device, device and readable storage medium for English words

【技术实现步骤摘要】
一种英文单词拼写纠错方法、装置、设备及可读存储介质
本专利技术涉及数据处理
,特别是涉及一种英文单词拼写纠错方法、装置、设备及可读存储介质。
技术介绍
跨境电商正逐步成为中国连接世界的纽带。和传统国内电商不同,跨境电商的用户分布在国外,在网站平台上使用的语言主要是英文。利用键盘输入英文内容,因英文没有输入法,只能单个字母逐个输入,这就容易导致拼写出错。具体的,在拼写单词时,因误触键盘、或者由于发音错误极容易出现漏字母、字母顺序错误、多字母的情况。这些拼写错误的请求会进入搜索引擎,由于错词在搜索工程中的类目映射、索引查询等等相关处理中,会有不良影响,导致不能很准确地得到用户需要的结果。目前的拼写纠错方法通过对单词查表,如果错误直接通过编辑距离查找正确的词,由于编辑距离和错词相近的词可能有多个。用来筛选正确词的处理方法,难以获得准确正确词,即无法保障纠错后的词为用户期望输入的词。也就是说,目前的拼写纠错方法的准确率较低,难以满足实际纠错需求。综上所述,如何有效地解决拼写纠错等问题,是目前本领域技术人员急需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种英文单词拼写纠错方法、装置、设备及可读存储介质,基于上下文相关性,快速准确地确定出错词对应的正确词,可提高拼写纠错准确率。为解决上述技术问题,本专利技术提供如下技术方案:一种英文单词拼写纠错方法,包括:获取具有待纠错单词的目标单词序列,以及所述待纠错单词在所述目标单词序列中对应的相邻词;利用编辑距离从正确词库中获取所述待纠错单词的候选集;利用基于全局词频统计的向量化词库,计算所述相邻词与所述候选集中的每个候选词之间的相邻共现参数值;利用所述相邻共现参数值从所述候选集中确定出正确词,并将所述目标单词序列中的所述待纠错单词替换为所述正确词。优选地,所述获取具有待纠错单词的目标单词序列,包括:获取拼写内容,对所述拼写内容进行单词拼写检测,获得所述目标单词序列。优选地,计算所述目标单词序列中所述待纠错单词的相邻词与所述候选集中的每个候选词之间的相邻共现参数值,包括:利用所述向量化词库中记录的单词词组在文本中一起出现的统计次数,计算所述相邻词与每个所述候选词之间的相邻共现参数值。优选地,计算所述相邻词与每个所述候选词之间的相邻共现参数值,包括:从所述向量化词库中获取所述相邻词的单词向量以及每个所述候选词分别对应的单词向量;计算所述相邻词的单词向量与每个所述候选词分别对应的单词向量的向量乘积;将所述向量乘积作为所述相邻共现参数值。优选地,利用所述相邻共现参数值从所述候选集中确定出正确词,包括:对所述相邻共现参数值进行大小排序,将最大相邻共现参数值对应的候选词作为所述正确词。优选地,所述利用编辑距离从正确词库中获取所述待纠错单词的候选集,包括:在所述正确词库中筛选出与所述待纠错单词的编辑距离为2的单词;将筛选得到的单词作为所述候选词,并添加至所述候选集。优选地,在将所述目标单词序列中的所述待纠错单词替换为所述正确词之后,还包括:当所述目标单词序列为搜索描述语时,利用纠错替换后的目标单词序列进行搜索。一种英文单词拼写纠错装置,包括:目标单词序列获取模块,用于获取具有待纠错单词的目标单词序列,以及所述待纠错单词在所述目标单词序列中对应的相邻词;候选集获取模块,用于利用编辑距离从正确词库中获取所述待纠错单词的候选集;相邻共现参数值计算模块,用于利用基于全局词频统计的向量化词库,计算所述相邻词与所述候选集中的每个候选词之间的相邻共现参数值;单词拼写纠错模块,用于利用所述相邻共现参数值从所述候选集中确定出正确词,并将所述目标单词序列中的所述待纠错单词替换为所述正确词。一种英文单词拼写纠错设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述英文单词拼写纠错方法的步骤。一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述英文单词拼写纠错方法的步骤。应用本专利技术实施例所提供的方法,获取具有待纠错单词的目标单词序列,以及待纠错单词在目标单词序列中对应的相邻词;利用编辑距离从正确词库中获取待纠错单词的候选集;利用基于全局词频统计的向量化词库,计算相邻词与候选集中的每个候选词之间的相邻共现参数值;利用相邻共现参数值从候选集中确定出正确词,并将目标单词序列中的待纠错单词替换为正确词。考虑到在语义表达时,单词与单词之间往往存在一定关联关系。也就是存在相对固定的上下文信息。基于此,本方法即利用单词与单词之间的上下文信息的关联关系,完成英文单词拼写纠错。即,在获得具有待纠错单词的目标单词序列,以及在目标单词序列中待纠错单词对应的相邻词。利用编辑距离中正确词库中获取待纠错单词的候选集。然后,利用基于全局词频统计的向量化词库,计算分别计算相邻词与候选集中的每个候选词之间的相邻共现参数值。基于该相邻共现参数值从候选集中确定出正确词,并将目标单词序列中的待纠错词替换为正确词,即完成拼写纠错。结合上下文信息从候选集中筛选得到替换待纠错词的正确词,能够提高拼写纠错准确率。相应地,本专利技术实施例还提供了与上述英文单词拼写纠错方法相对应的英文单词拼写纠错装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中一种英文单词拼写纠错方法的实施流程图;图2为一种应用本专利技术实施例中英文单词拼写纠错方法的实施流程图;图3为本专利技术实施例中一种英文单词拼写纠错装置的结构示意图;图4为本专利技术实施例中一种英文单词拼写纠错设备的结构示意图;图5为本专利技术实施例中一种英文单词拼写纠错设备的具体结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:请参考图1,图1为本专利技术实施例中一种英文单词拼写纠错方法的流程图,该方法包括以下步骤:S101、获取具有待纠错单词的目标单词序列,以及待纠错单词在目标单词序列中对应的相邻词。其中,目标单词序列即为包括待纠错单词的单词组合,目标单词序列中的单词数量至少为2个,也就是说,目标单词序列至少为两个单词,且其中一个为待纠错单词,另外,该待纠错词至少对应一个相邻词。例如,若用A表示待纠错单词,B为另外一个单词,则目标单词序列可为AB,或BA,此时B为相邻词。相邻词即为在目标单词序列中与待纠错单词相邻的词,在本专利技术实施例中相邻词可以具体为包括待纠错单词前的单词,在该纠错单词后的单词中的至少一个。在本专利技术实施例中,获取目标单词序列的方式可直接从可读存储介质中读取预先存入的单词序列。为了实现实时纠错,优选地,还可获取拼写内容,对拼写内容进行单词拼写检测,获得目标单词序列。具体的,该拼写内容可用户使用网页搜索引本文档来自技高网
...

【技术保护点】
1.一种英文单词拼写纠错方法,其特征在于,包括:获取具有待纠错单词的目标单词序列,以及所述待纠错单词在所述目标单词序列中对应的相邻词;利用编辑距离从正确词库中获取所述待纠错单词的候选集;利用基于全局词频统计的向量化词库,计算所述相邻词与所述候选集中的每个候选词之间的相邻共现参数值;利用所述相邻共现参数值从所述候选集中确定出正确词,并将所述目标单词序列中的所述待纠错单词替换为所述正确词。

【技术特征摘要】
1.一种英文单词拼写纠错方法,其特征在于,包括:获取具有待纠错单词的目标单词序列,以及所述待纠错单词在所述目标单词序列中对应的相邻词;利用编辑距离从正确词库中获取所述待纠错单词的候选集;利用基于全局词频统计的向量化词库,计算所述相邻词与所述候选集中的每个候选词之间的相邻共现参数值;利用所述相邻共现参数值从所述候选集中确定出正确词,并将所述目标单词序列中的所述待纠错单词替换为所述正确词。2.根据权利要求1所述的英文单词拼写纠错方法,其特征在于,所述获取具有待纠错单词的目标单词序列,包括:获取拼写内容,对所述拼写内容进行单词拼写检测,获得所述目标单词序列。3.根据权利要求1所述的英文单词拼写纠错方法,其特征在于,计算所述目标单词序列中所述待纠错单词的相邻词与所述候选集中的每个候选词之间的相邻共现参数值,包括:利用所述向量化词库中记录的单词词组在文本中一起出现的统计次数,计算所述相邻词与每个所述候选词之间的相邻共现参数值。4.根据权利要求3所述的英文单词拼写纠错方法,其特征在于,计算所述相邻词与每个所述候选词之间的相邻共现参数值,包括:从所述向量化词库中获取所述相邻词的单词向量以及每个所述候选词分别对应的单词向量;计算所述相邻词的单词向量与每个所述候选词分别对应的单词向量的向量乘积;将所述向量乘积作为所述相邻共现参数值。5.根据权利要求4所述的英文单词拼写纠错方法,其特征在于,利用所述相邻共现参数值从所述候选集中确定出正确词,包括:对所述相邻共现参数值进行大小排序,将最大相...

【专利技术属性】
技术研发人员:罗鹏钟灵
申请(专利权)人:杭州嘉云数据科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1