【技术实现步骤摘要】
一种英文单词拼写检查方法
本专利技术涉及一种英文单词拼写检查方法,属于自然语言处理
技术介绍
当前,使用Word或WPS之类文本编辑器的用户越来越多,尤其对办公人员来说,使用这些文本编辑软件是工作中最主要的一部分,然而在打字过程中拼写错误的情况时常发生。Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。在现阶段的拼写检查方法中,大多就是使用编辑距离来进行纠错,虽然这种方法可以匹配出小于编辑距离范围内的一部分单词,但是它存在局限性是很难设定一个统一的阈值,结果可能出现错误或遗漏,并且若在统一阈值下存在较多单词,它也会列出所有符合规则的单词,不利于用户的选择。
技术实现思路
本专利技术要解决的技术问题是提供一种英文单词拼写检查方法,以用于解决Levenshtein距离对阈值设定过大或者过小出现的偏差,能把单词集缩小到更精确的范围。本专利技术的技术方案是:一种英文单词拼写检查方法,首先用常规的Levenshtein距离对输入的单词与英文词典进行编辑距离的计算,根据阈值筛选出与其相似的一个单词集合;然后引入按键 ...
【技术保护点】
1.一种英文单词拼写检查方法,其特征在于:Step1:选中所需进行拼写检查的单词A;Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定,n表示的是单词A与英文词典中所有单词的编辑距离小于X的单词总个数;Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,w ...
【技术特征摘要】
1.一种英文单词拼写检查方法,其特征在于:Step1:选中所需进行拼写检查的单词A;Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定,n表示的是单词A与英文词典中所有单词的编辑距离小于X的单词总个数;Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于字母视觉相似的编辑距离J(A,Bi)...
【专利技术属性】
技术研发人员:邵玉斌,王林坪,龙华,杜庆治,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。