【技术实现步骤摘要】
候选词评估方法、装置、计算机设备和存储介质
本专利技术涉及数据处理
,特别是涉及候选词评估方法、装置、计算机设备和存储介质。
技术介绍
目前流行的文字处理软件,如Word,WPS,WordPerfect等,都嵌入了英文拼写检查功能,该功能用于实现英文拼写检查,当检查到拼写错误的词时,给出提示信息,或者给出对应的纠错建议。在实现本专利技术的过程中,专利技术人发现现有技术中存在如下问题,现有的纠错方法主要是使用词典进行检测,发现拼写错误后通过编辑距离对错词的候选词进行评估,然而这种方法过于简单和生硬,对候选词的评估结果的可靠性不够理想。
技术实现思路
基于此,有必要针对现有方式对候选词的评估结果不够准确的问题,提供一种候选词评估方法、装置、计算机设备和存储介质。本专利技术实施例提供的方案包括:一种候选词评估方法,包括以下步骤:检测到错词,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。一种候选词评估装置,包括:候选词获取模块,用于检测到错词,获取错词对应的多个候选词;距离确定模块,用于确定各候选词与所述错词的编辑距离;相似度确定模块,用于确定各候选词与错词的相似度,所述相似 ...
【技术保护点】
1.一种候选词评估方法,其特征在于,包括:检测到错词,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。
【技术特征摘要】
1.一种候选词评估方法,其特征在于,包括:检测到错词,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。2.根据权利要求1所述的候选词评估方法,其特征在于,所述确定各候选词与错词的相似度的步骤包括:根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,计算各候选词与所述错词的相似度;或者,根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,以及各候选词与所述错词的编辑距离,计算各候选词与所述错词的相似度。3.根据权利要求2所述的候选词评估方法,其特征在于,所述根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,以及各候选词与所述错词的编辑距离,计算各候选词与所述错词的相似度的步骤,包括:根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,以及各候选词与所述错词的编辑距离的倒数,计算各候选词与所述错词的相似度。4.根据权利要求1所述的候选词评估方法,其特征在于,所述根据所述候选语句确定对应候选词的评估概率的步骤包括:根据预设的语言模型计算候选语句中候选词、候选词的临近词各自在其位置的概率,将所述概率的log值作为各词的语言环境概率;对候选语句中候选词的语言环境概率、候选词的临近词的语言环境概率求平均,得到所述候选语句中候选词的评估概率。5.根据权利要求4所述的候选词评估方法,其特征在于,所述根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分的步骤包括:根据所述编辑距离的倒数、相似度、评估概率的倒数以及出错信息,确定各候选词对应的评估得分;和/或,所述语言模型包括N-Gram模型、BiLSTM模型或者LSTM模型。6.根据权利要求1至5任一所述的候选词评估方法,其特征在于,所述错词相对于各候选词的出错信息中包括:所述错词与候选词是否首字母相同的信息;所述根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分的步骤包括:若错词与候选词首字母相同,则根据所述编辑距离、相似度、评估概率以及第一系数计算所述候选词的评估得分;若错词与候选词首字母不同,则根据所述编辑距离、相似度、评估概率以及第二系数计算所述候选词的评估得分。7.根据权利要求6所述的候选词评估方法,其特征在于,还包括步骤:检测到待检测词不在预设词库中,确定所述待检测词为错词。8.根据权利要求7所述的候选词评估方法,其特征在于,检测到错词之后,还包括步骤:计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。9.根据权利要求1、2、3、4、5、7、8中任一所述的候选词评估方法,其特征在于,还包括步骤:根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词;和/或,根据所述评估得分对所述多个候选词进行排序,显示排序后的所述多个候选词。10.根据权利要求9所述的候选词评估方法,其特征在于,所述根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词的步骤包括:从所述多个候选词中确定出所述评估得分最高的候选词,作为所述错词对应的纠错词。11.根据权...
【专利技术属性】
技术研发人员:李贤,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。