当前位置: 首页 > 专利查询>长安大学专利>正文

基于词库的英语拼写纠错工具和方法技术

技术编号:14806270 阅读:59 留言:0更新日期:2017-03-15 00:44
本发明专利技术公开了一种基于词库的英语拼写纠错工具和方法,目的在于,提高错误检测速度,提高错误检测准确率,所采用的技术方案为:一种基于词库的英语拼写纠错工具,包括:断句模块,用于将英语文本切分为若干个句子;单词确定模块,用于将断句模块得到的句子切分为若干个单词;单词比对模块,用于对每个单词在词库中进行搜索,并判断是否拼写错误;拼写错误标记模块,用于对单词比对模块判断为拼写错误的单词进行标签标记;以及拼写错误纠正模块,用于对拼写错误单词在词库中搜索最为接近的拼写,并提供给用户进行判断和选定。

【技术实现步骤摘要】

本专利技术属于计算语言学和翻译
,具体涉及一种基于词库的英语拼写纠错工具和方法
技术介绍
《利用开源资源组件定制的英文拼写检查纠错工具》讲述了如何利用开源资源去构建一个定制的英文拼写检查纠错工具。并重点介绍一些英文拼写建议生成的算法,对这些算法的组合和改进提出建议和看法,并结合实验结果(80%的第一建议正确率)论证构想的可行性。《英文作文的自动拼写检查研究》是基于自动拼写检查的研究现状,将英文作文中的拼写错误进行了分类,并分别采用规则匹配和统计建模的方法对单词的非词错误和真词进行了研究,从而扩大了对英文单词进行拼写检查的研究范围。真词错误检查主要是利用贝叶斯定理,并通过建立一些特定的混淆集的方法来实现,通过实验数据分析,该系统的准确率达到了80%以上。目前已有的英语拼写纠错方法无需自己建设词库,开发难度小,但是开源资源获取难度小,但是通常不完全适用,另外错误检测率低,不能满足需要。
技术实现思路
为了解决现有技术中的问题,本专利技术提出一种错误检测速度快,错误检测准确率高的基于词库的英语拼写纠错工具和方法。为了实现以上目的,本专利技术所采用的技术方案为:一种基于词库的英语拼写纠错工具,包括:断句模块,用于将英语文本切分为若干个句子;单词确定模块,用于将断句模块得到的句子切分为若干个单词;单词比对模块,用于对每个单词在词库中进行搜索,并判断是否拼写错误;拼写错误标记模块,用于对单词比对模块判断为拼写错误的单词进行标签标记;以及拼写错误纠正模块,用于对拼写错误单词在词库中搜索最为接近的拼写,并提供给用户进行判断和选定。所述的工具包括词库修正模块,词库修正模块用于在词库有误或遇到新词,没有标记或标记错误的情况,下增加、删除或修改单词。一种基于词库的英语拼写纠错方法,包括以下步骤:1)打开英语文本,断句模块将英语文本切分为若干个句子;2)单词确定模块将断句模块得到的句子切分为若干个单词;3)单词比对模块采用二分搜索算法对每个单词在词库中进行搜索,并判断是否拼写错误;4)拼写错误标记模块对单词比对模块判断为拼写错误的单词进行标签标记;5)拼写错误纠正模块对拼写错误单词在词库中搜索最为接近的拼写,并提供给用户进行判断和选定,即完成英语拼写的纠错。所述的步骤1)中断句模块根据标点符号规则,定义句子终止符,遇到终止符则判断为句尾,将英语文本切分为若干个句子。所述的断句模块对英文句号需要判断是否为缩略词,词库中包含缩略词,在词库中搜索句号及句号之前单词,若能搜索到则为缩略词,缩略词的标点则忽略不作为句子终止符。所述的步骤3)中单词比对模块在词库中依次对每个单词进行搜索,若能搜索到该单词,则该单词拼写正确;若单词为变体,对单词进行原型还原后在词库中进行搜索,若能搜索到原型还原后的单词,则该单词拼写正确;若单词搜索失败或变体单词原型还原后搜索失败,则判断拼写错误。所述的步骤4)中拼写错误标记模块采用高光显示、下划线显示或加粗显示方式对拼写错误的单词进行标签标记。所述的步骤5)中拼写错误纠正模块在词库中搜索到多个最为接近的拼写时,词库单词按字母顺序排列,采用二分搜索算法查找的最后一个搜索单词即是词库中收录单词最接近的匹配,在最后一个搜索单词的位置前后选取一定范围,对这个范围的单词按字母匹配率计算相似度,根据设定的相似度显示多个可选择的纠正选项。所述的方法中若词库遇到新词时,词库修正模块采用二分搜索算法在词库中对新词进行查找,若查找失败,则查找失败位置为新增单词的位置,增加新词;若词库有误时,词库修正模块对词库采用二分搜索算法查找,先删除该位置的有误单词,然后增加纠正后的单词。与现有技术相比,本专利技术通过断句模块将英语文本切分为若干个句子,通过单词确定模块将断句模块得到的句子切分为若干个单词,利用单词比对模块对每个单词在词库中进行搜索,并判断是否拼写错误,同时拼写错误标记模块对判断为拼写错误的单词进行标签标记,拼写错误纠正模块对拼写错误单词在词库中搜索最为接近的拼写,并提供给用户进行判断和选定,完成拼写错误单词的纠错,本专利技术利用已经建设好的词库,对每个句子进行处理,将句子拆解成每个单词,和词库比对,词库单词按字母排序,对单词的搜索采用二分搜索算法查找,因此本英语拼写错误检查和纠正工具错误检测速度快;基于词库检查和纠正,词库完备正确,本专利技术错误检测准确率高。进一步,本专利技术检测出拼写错误后,通过错误的拼写和词库进行比对,搜索到多个最为接近的拼写,词库单词按字母顺序排列,采用二分搜索算法查找的最后一个搜索单词是词库中收录单词最相近的匹配,在最后一个搜索单词的位置前后选取一定范围,对这个范围的单词按字母匹配率计算相似度,根据设定的相似度显示多个可以选择的纠正选项。进一步,本专利技术带有词库修正功能,输入后保存在词库,词库没收录的单词通过词库修正模块加入词库,对纠正选项中提供的参考单词,本身录入错误的,通过词库修正模块删除、修改,进一步完善和增加判断依据,进一步提高拼写错误检测准确率。具体实施方式下面结合具体的实施例对本专利技术作进一步的解释说明。一种基于词库的英语拼写纠错工具,包括:断句模块,用于将英语文本切分为若干个句子;单词确定模块,用于将断句模块得到的句子切分为若干个单词;单词比对模块,用于对每个单词在词库中进行搜索,并判断是否拼写错误;拼写错误标记模块,用于对单词比对模块判断为拼写错误的单词进行标签标记;以及拼写错误纠正模块,用于对拼写错误单词在词库中搜索最为接近的拼写,并提供给用户进行判断和选定。本专利技术的工具还包括词库修正模块,词库修正模块用于在词库有误或遇到新词,没有标记或标记错误的情况,下增加、删除或修改单词。一种基于词库的英语拼写纠错方法,包括以下步骤:1)打开英语文本,断句模块根据标点符号规则,定义句子终止符,遇到终止符则判断为句尾,将英语文本切分为若干个句子;断句模块对英文句号需要判断是否为缩略词,词库中包含缩略词,在词库中搜索句号及句号之前单词,若能搜索到则为缩略词,缩略词的标点则忽略不作为句子终止符;2)单词确定模块将断句模块得到的句子切分为若干个单词;3)单词比对模块采用二分搜索算法对每个单词在词库中进行搜索,并判断是否拼写错误;单词比对模块在词库中依次对每个单词进行搜索,若能搜索到该单词,则该单词拼写正确;若单词为变体,对单词进行原型还原后在词库中进行搜索,若能搜索到原型还原后的单词,则该单词拼写正确;若单词搜索失败或变体单词原型还原后搜索失本文档来自技高网...

【技术保护点】
一种基于词库的英语拼写纠错工具,其特征在于,包括:断句模块,用于将英语文本切分为若干个句子;单词确定模块,用于将断句模块得到的句子切分为若干个单词;单词比对模块,用于对每个单词在词库中进行搜索,并判断是否拼写错误;拼写错误标记模块,用于对单词比对模块判断为拼写错误的单词进行标签标记;以及拼写错误纠正模块,用于对拼写错误单词在词库中搜索最为接近的拼写,并提供给用户进行判断和选定。

【技术特征摘要】
1.一种基于词库的英语拼写纠错工具,其特征在于,包括:
断句模块,用于将英语文本切分为若干个句子;
单词确定模块,用于将断句模块得到的句子切分为若干个单词;
单词比对模块,用于对每个单词在词库中进行搜索,并判断是否拼写错误;
拼写错误标记模块,用于对单词比对模块判断为拼写错误的单词进行标签标记;
以及拼写错误纠正模块,用于对拼写错误单词在词库中搜索最为接近的拼写,并提供给用
户进行判断和选定。
2.根据权利要求1所述的一种基于词库的英语拼写纠错工具,其特征在于,所述的工具
包括词库修正模块,词库修正模块用于在词库有误或遇到新词,没有标记或标记错误的情况,
下增加、删除或修改单词。
3.一种基于词库的英语拼写纠错方法,其特征在于,包括以下步骤:
1)打开英语文本,断句模块将英语文本切分为若干个句子;
2)单词确定模块将断句模块得到的句子切分为若干个单词;
3)单词比对模块采用二分搜索算法对每个单词在词库中进行搜索,并判断是否拼写错误;
4)拼写错误标记模块对单词比对模块判断为拼写错误的单词进行标签标记;
5)拼写错误纠正模块对拼写错误单词在词库中搜索最为接近的拼写,并提供给用户进行
判断和选定,即完成英语拼写的纠错。
4.根据权利要求3所述的一种基于词库的英语拼写纠错方法,其特征在于,所述的步骤
1)中断句模块根据标点符号规则,定义句子终止符,遇到终止符则判断为句尾,将英语文本
切分为若干个句子。
5.根据权利要求4所述的一种基于词库的英语拼写纠错方法,其特征在于,所述的断句
模块对英文...

【专利技术属性】
技术研发人员:白晓文王红孝惠亚玲陈春纬刘庆
申请(专利权)人:长安大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1