一种英文单词拼写检查方法技术

技术编号:19821729 阅读:25 留言:0更新日期:2018-12-19 14:41
本发明专利技术涉及一种英文单词拼写检查方法,属于自然语言处理技术领域。首先用常规的Levenshtein距离对输入的单词与英文词典进行编辑距离的计算,根据阈值筛选出与其相似的一个单词集合;然后引入按键编辑距离模型,计算出输入单词与单词集合中的所有单词的按键编辑距离,其次,视觉编辑距离模型,计算出输入单词与单词集合中的所有单词的视觉编辑距离;最后,给予以上计算所得的相似度相应的权值,通过加权编辑距离计算。本发明专利技术与现有技术相比,主要解决了现阶段文本编辑器对英文单词进行拼写检查的不准确性和冗余过多等现象,可以把匹配到的近似单词集缩小到更精确的范围。

【技术实现步骤摘要】
一种英文单词拼写检查方法
本专利技术涉及一种英文单词拼写检查方法,属于自然语言处理

技术介绍
当前,使用Word或WPS之类文本编辑器的用户越来越多,尤其对办公人员来说,使用这些文本编辑软件是工作中最主要的一部分,然而在打字过程中拼写错误的情况时常发生。Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。在现阶段的拼写检查方法中,大多就是使用编辑距离来进行纠错,虽然这种方法可以匹配出小于编辑距离范围内的一部分单词,但是它存在局限性是很难设定一个统一的阈值,结果可能出现错误或遗漏,并且若在统一阈值下存在较多单词,它也会列出所有符合规则的单词,不利于用户的选择。
技术实现思路
本专利技术要解决的技术问题是提供一种英文单词拼写检查方法,以用于解决Levenshtein距离对阈值设定过大或者过小出现的偏差,能把单词集缩小到更精确的范围。本专利技术的技术方案是:一种英文单词拼写检查方法,首先用常规的Levenshtein距离对输入的单词与英文词典进行编辑距离的计算,根据阈值筛选出与其相似的一个单词集合;然后引入按键编辑距离模型,计算出输入单词与单词集合中的所有单词的按键编辑距离,其次,视觉编辑距离模型,计算出输入单词与单词集合中的所有单词的视觉编辑距离;最后,给予以上计算所得的相似度相应的权值,通过加权编辑距离计算。所述方法的具体步骤如下:Step0.1:建立键盘字母近似数据库。根据每个手指对键盘上各个字母键的控制情况制定出可以反应任意字母键之间近似程度的规则,根据规则计算任意字母与字母之间的相近程度并存入数据库,组建键盘字母近似数据库;Step0.2:建立字母视觉相似数据库。人工查看每两个字母在屏幕上的相似情况,根据这些相似情况设计出一种可以反应出字母相似情况的一种规则,根据规则计算任意字母与字母之间的视觉误差距离并存入数据库,组建视觉字母近似数据库;Step1:选中所需进行拼写检查的单词A;Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定;Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于字母视觉相似的编辑距离J(A,Bi);Step5:设Step3、Step4步骤所计算出的编辑距离对应权值分别为i、j,权值i、j满足i+j=1的要求,由编辑距离I(A,B)及权值i、编辑距离J(A,B)及权值j,计算单词A和文本B的加权编辑距离R(A,B)=I(A,B)×i+J(A,B)×j,根据加权编辑距离和阈值Y进一步筛选单词集合B中的元素。进一步地,所述步骤Step0.1中,根据手对键盘的控制情况可以反应字母与字母之间的相近程度,根据相近程度可以绘制字母到字母的按键编辑距离表,即键盘字母近似数据库,再由Step3计算出单词A与Bi,i∈[1,n]之间的按键编辑距离I(A,Bi)。进一步地,所述步骤Step0.2中,根据人的视觉来判断两个字母之间或者字母与数字间的相似情况,根据字母之间反应出来的规则,可以绘制视觉编辑距离表,即字母视觉相似数据库,再由Step4计算出单词A与Bi,i∈[1,n]之间的视觉编辑距离J(A,Bi)。进一步地,所述步骤Step2中的阈值X,一般为3,但可根据实际情况进行小幅度修改;n表示的是单词A与英文词典中所有单词的编辑距离小于X的单词总个数。进一步地,所述步骤Step5中所述的加权编辑距离表示如下:R(A,B)=I(A,B)×i+J(A,B)×j其中,R(A,B)表示用B替换A的加权编辑距离,I(A,B)为A到B的基于键盘字母近似的编辑距离,J(A,B)为A到B的基于字母视觉相似的编辑距离,i、j为视觉编辑距离和按键编辑距离的权值。本专利技术的有益效果是:解决了现阶段文本编辑器对英文单词进行拼写检查的不准确性和冗余过多等现象,可以把匹配到的近似单词集缩小到更精确的范围。附图说明图1是本专利技术总流程图;图2是本专利技术步骤Step0.1键盘字母近似数据库的例图;图3是本专利技术步骤Step0.2字母视觉相似数据库的例图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:一种英文单词拼写检查方法,所述方法的具体步骤如下:Step0.1:建立键盘字母近似数据库。根据每个手指对键盘上各个字母键的控制情况制定出可以反应任意字母键之间近似程度的规则,根据规则计算任意字母与字母之间的相近程度并存入数据库,组建键盘字母近似数据库;Step0.2:建立字母视觉相似数据库。人工查看每两个字母在屏幕上的相似情况,根据这些相似情况设计出一种可以反应出字母相似情况的一种规则,根据规则计算任意字母与字母之间的视觉误差距离并存入数据库,组建视觉字母近似数据库;Step1:选中所需进行拼写检查的单词A;Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定;Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于字母视觉相似的编辑距离J(A,Bi);Step5:设Step3、Step4步骤所计算出的编辑距离对应权值分别为i、j,权值i、j满足i+j=1的要求,由编辑距离I(A,B)及权值i、编辑距离J(A,B)及权值j,计算单词A和文本B的加权编辑距离R(A,B)=I(A,B)×i+J(A,B)×j,根据加权编辑距离和阈值Y进一步筛选单词集合B中的元素。进一步地,所述步骤Step0.1中,根据手对键盘的控制情况可以反应字母与字母之间的相近程度,根据相近程度可以绘制字母到字母的按键编辑距离表,即键盘字母近似数据库,再由Step3计算出单词A与Bi,i∈[1,n]之间的按键编辑距离I(A,Bi)。进一步地,所述步骤Step0.2中,根据人的视觉来判断两个字母之间或者字母与数字间的相似情况,根据字母之间反应出来的规则,可以绘制视觉编辑距离表,即字母视觉相似数据库,再由Step4计算出单词A与Bi,i∈[1,n]之间的视觉编辑距离J(A,Bi)。进一步地,所述步骤Step2中的阈值X,一般为3,但可根据实际情况进行小幅度修改;n表示的是单词A与英文词典中所有单词的编辑距离小于X的单词总个数。进一步地,所述步骤Step5中所述的加权编辑距离表示如下:R(A,B)=I(A,B)×i+J(A,B)×j其中,R(A,B)表示用B替换A的加权编辑距离,I(A,B)为A到B的基于键盘字母近似的编辑距离,J(A,B)为A到B的基于字母视觉相似的编辑距离,i、j为视本文档来自技高网...

【技术保护点】
1.一种英文单词拼写检查方法,其特征在于:Step1:选中所需进行拼写检查的单词A;Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定,n表示的是单词A与英文词典中所有单词的编辑距离小于X的单词总个数;Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于字母视觉相似的编辑距离J(A,Bi);Step5:设Step3、Step4步骤所计算出的编辑距离对应权值分别为i、j,权值i、j满足i+j=1的要求,由编辑距离I(A,B)及权值i、编辑距离J(A,B)及权值j,计算单词A和文本B的加权编辑距离R(A,B)=I(A,B)×i+J(A,B)×j,根据加权编辑距离和阈值Y进一步筛选单词集合B中的元素。

【技术特征摘要】
1.一种英文单词拼写检查方法,其特征在于:Step1:选中所需进行拼写检查的单词A;Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定,n表示的是单词A与英文词典中所有单词的编辑距离小于X的单词总个数;Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于字母视觉相似的编辑距离J(A,Bi)...

【专利技术属性】
技术研发人员:邵玉斌王林坪龙华杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1