候选词评估方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:19177208 阅读:23 留言:0更新日期:2018-10-17 00:20
本发明专利技术涉及候选词评估方法、装置、计算机设备和存储介质,应用于数据处理领域。所述方法包括:在检测到错词时,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离,以及确定各候选词在所述错词位置的语言环境概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。通过本发明专利技术实施例的方法、装置、计算机设备或者存储介质,有利于提高候选词评估结果的可靠性。

Candidate word evaluation method, device, computer equipment and storage medium

The invention relates to a candidate word evaluation method, a device, a computer device and a storage medium, which are applied to the field of data processing. The method includes: acquiring a plurality of candidate words corresponding to the wrong words when the wrong words are detected; determining the editing distances between the candidate words and the wrong words, and determining the linguistic environment probabilities of the candidate words at the wrong words positions; acquiring the error information of the wrong words relative to the candidate words; and according to the editing distances, the language ring. Environmental probability and error information are used to determine the scoring points corresponding to each candidate. The method, device, computer device or storage medium according to the embodiment of the present invention is advantageous to improving the reliability of the evaluation result of candidate words.

【技术实现步骤摘要】
候选词评估方法、装置、计算机设备和存储介质
本专利技术涉及数据处理
,特别是涉及候选词评估方法、装置、计算机设备和存储介质。
技术介绍
目前流行的文字处理软件,如Word,WPS,WordPerfect等,都嵌入了英文拼写检查功能,该功能用于实现英文拼写检查,当检查到拼写错误的词时,给出提示信息,或者给出对应的纠错建议。在实现本专利技术的过程中,专利技术人发现现有技术中存在如下问题,现有的纠错方法主要是使用词典进行检测,发现拼写错误后通过编辑距离对错词的候选词进行评估,然而这种方法过于简单和生硬,对候选词的评估结果的可靠性不够理想。
技术实现思路
基于此,有必要针对现有方式对候选词的评估结果的可靠性不够理想的问题,提供一种候选词评估方法、装置、计算机设备和存储介质。本专利技术实施例提供的方案包括:一方面提供,一种候选词评估方法,包括:在检测到错词时,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词在所述错词位置的语言环境概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。在其中一个实施例中,所述确定各候选词在所述错词位置的语言环境概率,包括:根据预设的语言模型计算各候选词在所述错词位置的概率,将所述概率的log值作为候选词的语言环境概率。在其中一个实施例中,所述根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:根据所述编辑距离的倒数、语言环境概率的倒数以及出错信息,确定各候选词对应的评估得分;和/或,所述语言模型包括N-Gram模型、BiLSTM模型或者LSTM模型。在其中一个实施例中,所述错词相对于各候选词的出错信息中包括:所述错词与候选词是否首字母相同的信息;所述根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:若错词与候选词首字母相同,则根据所述编辑距离、语言环境概率以及第一系数,计算所述候选词对应的评估得分;若错词与候选词首字母不同,则根据所述编辑距离、语言环境概率以及第二系数,计算所述候选词对应的评估得分。在其中一个实施例中,还包括步骤:检测待检测词是否在预设词库中,若否,则确定所述待检测词为错词。在其中一个实施例中,在检测出错词之后,还包括步骤:计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。在其中一个实施例中,还包括:根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词;和/或,根据所述评估得分对所述多个候选词进行排序,显示排序后的所述多个候选词。在其中一个实施例中,所述根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,包括:从多个候选词中确定出所述评估得分最高的候选词,作为所述错词对应的纠错词。在其中一个实施例中,根据如下公式计算各候选词的评估得分:其中,word表示候选词,Dedit表示候选词与错词的编辑距离,表示候选词的语言环境概率,mx表示语言模型,scoreword表示候选词对应的评估得分,K表示错词相对于各候选词的出错信息,若候选词和错词首字母相同,K取值为K1,否则,K取值K2,K1、K2均为预设的数值。又一方面提供,一种候选词评估装置,包括:候选词获取模块,用于在检测到错词时,获取错词对应的多个候选词;距离确定模块,用于确定各候选词与所述错词的编辑距离;概率确定模块,用于确定各候选词在所述错词位置的语言环境概率;出错信息获取模块,用于获取所述错词相对于各候选词的出错信息;评估模块,用于根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。在其中一个实施例中,所述错词相对于各候选词的出错信息中包括:所述错词与候选词是否首字母相同的信息;所述评估模块包括:第一评分子模块,用于若错词与候选词首字母相同,则根据所述编辑距离、语言环境概率以及第一系数,计算所述候选词对应的评估得分;第二评分子模块,用于若错词与候选词首字母不同,则根据所述编辑距离、语言环境概率以及第二系数,计算所述候选词对应的评估得分。在其中一个实施例中,还包括以下模块中的至少一个:候选词确定模块,用于计算错词与预设词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词;错词校正模块,用于根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词;排序模块,用于根据所述评估得分对所述多个候选词进行排序,显示排序后的所述多个候选词。上述候选词评估方法及装置,在检测到错词时,首先获取对应的多个候选词,分别确定各候选词与所述错词的编辑距离,以及各候选词在所述错词位置的语言环境概率,以及确定所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分;既考虑到了词书写的现象问题,还将上下文语言环境的信息考虑进来,由此有利于提高候选词评估结果的准确性。又一方面提供,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述候选词评估方法。上述计算机设备,通过所述处理器上运行的计算机程序,有利于提高候选词评估结果的准确性。又一方面提供,一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述候选词评估方法。上述计算机存储介质,通过其存储的计算机程序,有利于提高候选词评估结果的准确性。附图说明图1为一个实施例中候选词评估方法的应用环境图;图2为第一实施例的候选词评估方法的示意性流程图;图3为第二实施例的候选词评估方法的示意性流程图;图4为第三实施例的候选词评估方法的示意性流程图;图5为第四实施例的候选词评估方法的示意性流程图;图6为第五实施例的候选词评估方法的示意性流程图;图7为第六实施例的候选词评估方法的示意性流程图;图8为第七实施例的候选词评估方法的示意性流程图;图9为第八实施例的候选词评估方法的示意性流程图;图10为第九实施例的候选词评估方法的示意性流程图;图11为第十实施例的候选词评估方法的示意性流程图;图12为第十一实施例的候选词评估方法的示意性流程图;图13为第十二实施例的候选词评估方法的示意性流程图;图14为第十三实施例的候选词评估方法的示意性流程图;图15为十四实施例的候选词评估装置的示意性结构图;图16为十五实施例的候选词评估装置的示意性结构图;图17为十六实施例的候选词评估装置的示意性结构图;图18为十七实施例的候选词评估装置的示意性结构图;图19为十八实施例的候选词评估装置的示意性结构图;图20为十九实施例的候选词评估装置的示意性结构图;图21为二十实施例的候选词评估装置的示意性结构图;图22为二十一实施例的候选词评估装置的示意性结构图;图23为二十二实施例的候选词评估装置的示意性结构图;图24为二十三实施例的候选词评估装置的示意性结构图;图25为二十四实施例的候选词评估装置的示意性结构图;图26为二十五实施例的候选词评估装置的示意性结构图;图27为二十六实施例的候选词评估装置的示意性结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结本文档来自技高网...

【技术保护点】
1.一种候选词评估方法,其特征在于,包括:在检测到错词时,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词在所述错词位置的语言环境概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。

【技术特征摘要】
1.一种候选词评估方法,其特征在于,包括:在检测到错词时,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词在所述错词位置的语言环境概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分。2.根据权利要求1所述的候选词评估方法,其特征在于,所述确定各候选词在所述错词位置的语言环境概率,包括:根据预设的语言模型计算各候选词在所述错词位置的概率,将所述概率的log值作为候选词的语言环境概率。3.根据权利要求2所述的候选词评估方法,其特征在于,所述根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:根据所述编辑距离的倒数、语言环境概率的倒数以及出错信息,确定各候选词对应的评估得分;和/或,所述语言模型包括N-Gram模型、BiLSTM模型或者LSTM模型。4.根据权利要求1至3任一所述的候选词评估方法,其特征在于,所述错词相对于各候选词的出错信息中包括:所述错词与候选词是否首字母相同的信息;所述根据所述编辑距离、语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:若错词与候选词首字母相同,根据所述编辑距离、语言环境概率以及第一系数计算所述候选词的评估得分;若错词与候选词首字母不同,根据所述编辑距离、语言环境概率以及第二系数计算所述候选词的评估得分。5.根据权利要求4所述的候选词评估方法,其特征在于,还包括步骤:检测到待检测词不在预设词库中,确定所述待检测词为错词;和/或,根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词。6.根据权利要求5所述的候选词评估方法,其特征在于,在检测出错词之后,还包括:计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。7.根据权利要求1、2、3、5、6中任一所述的候选词评估方法,其特征在于,还包括:根据所述评估得分从所述多个候选词中确定出所述错词对应...

【专利技术属性】
技术研发人员:李贤
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1