The invention relates to a candidate word evaluation method, a device, a computer device and a storage medium, which are applied to the field of data processing. The method includes: acquiring a plurality of candidate words corresponding to the wrong words when the wrong words are detected; determining the editing distances between the candidate words and the wrong words, and determining the linguistic environment probabilities of the candidate words at the wrong words positions; acquiring the error information of the wrong words relative to the candidate words; and according to the editing distances, the language ring. Environmental probability and error information are used to determine the scoring points corresponding to each candidate. The method, device, computer device or storage medium according to the embodiment of the present invention is advantageous to improving the reliability of the evaluation result of candidate words.
【技术实现步骤摘要】
候选词评估方法、装置、计算机设备和存储介质
本专利技术涉及数据处理
,特别是涉及候选词评估方法、装置、计算机设备和存储介质。
技术介绍
目前流行的文字处理软件,如Word,WPS,WordPerfect等,都嵌入了英文拼写检查功能,该功能用于实现英文拼写检查,当检查到拼写错误的词时,给出提示信息,或者给出对应的纠错建议。在实现本专利技术的过程中,专利技术人发现现有技术中存在如下问题,现有的纠错方法主要是使用词典进行检测,发现拼写错误后通过编辑距离对错词的候选词进行评估,然而这种方法过于简单和生硬,对候选词的评估结果的可靠性不够理想。
技术实现思路
基于此,有必要针对现有方式对候选词的评估结果的可靠性不够理想的问题,提供一种候选词评估方法、装置、计算机设备和存储介质。本专利技术实施例提供的方案包括:一方面提供,一种候选词评估方法,包括:在检测到错词时,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词在所述错词位置的语言环境概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。在其中一个实施例中,所述确定各候选词在所述错词位置的语言环境概率,包括:根据预设的语言模型计算各候选词在所述错词位置的概率,将所述概率的log值作为候选词的语言环境概率。在其中一个实施例中,所述根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:根据所述编辑距离的倒数、语言环境概率的倒数以及出错信息,确定各候选词对应的评估得分;和/或,所述语言模型包括N-Gram模型、BiL ...
【技术保护点】
1.一种候选词评估方法,其特征在于,包括:在检测到错词时,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词在所述错词位置的语言环境概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。
【技术特征摘要】
1.一种候选词评估方法,其特征在于,包括:在检测到错词时,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词在所述错词位置的语言环境概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。2.根据权利要求1所述的候选词评估方法,其特征在于,所述确定各候选词在所述错词位置的语言环境概率,包括:根据预设的语言模型计算各候选词在所述错词位置的概率,将所述概率的log值作为候选词的语言环境概率。3.根据权利要求2所述的候选词评估方法,其特征在于,所述根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:根据所述编辑距离的倒数、语言环境概率的倒数以及出错信息,确定各候选词对应的评估得分;和/或,所述语言模型包括N-Gram模型、BiLSTM模型或者LSTM模型。4.根据权利要求1至3任一所述的候选词评估方法,其特征在于,所述错词相对于各候选词的出错信息中包括:所述错词与候选词是否首字母相同的信息;所述根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:若错词与候选词首字母相同,根据所述编辑距离、语言环境概率以及第一系数计算所述候选词的评估得分;若错词与候选词首字母不同,根据所述编辑距离、语言环境概率以及第二系数计算所述候选词的评估得分。5.根据权利要求4所述的候选词评估方法,其特征在于,还包括步骤:检测到待检测词不在预设词库中,确定所述待检测词为错词;和/或,根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词。6.根据权利要求5所述的候选词评估方法,其特征在于,在检测出错词之后,还包括:计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。7.根据权利要求1、2、3、5、6中任一所述的候选词评估方法,其特征在于,还包括:根据所述评估得分从所述多个候选词中确定出所述错词对应...
【专利技术属性】
技术研发人员:李贤,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。