候选词评估方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:19215651 阅读:23 留言:0更新日期:2018-10-20 06:42
本发明专利技术涉及候选词评估方法、装置、计算机设备和存储介质,应用于数据处理领域。所述方法包括:检测到错词,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。本发明专利技术实施例解决了候选词评估可靠性较低的问题,有利于提高候选词评估结果的可靠性。

【技术实现步骤摘要】
候选词评估方法、装置、计算机设备和存储介质
本专利技术涉及数据处理
,特别是涉及候选词评估方法、装置、计算机设备和存储介质。
技术介绍
目前流行的文字处理软件,如Word,WPS,WordPerfect等,都嵌入了英文拼写检查功能,该功能用于实现英文拼写检查,当检查到拼写错误的词时,给出提示信息,或者给出对应的纠错建议。在实现本专利技术的过程中,专利技术人发现现有技术中存在如下问题,现有的纠错方法主要是使用词典进行检测,发现拼写错误后通过编辑距离对错词的候选词进行评估,然而这种方法过于简单和生硬,对候选词的评估结果的可靠性不够理想。
技术实现思路
基于此,有必要针对现有方式对候选词的评估结果不够准确的问题,提供一种候选词评估方法、装置、计算机设备和存储介质。本专利技术实施例提供的方案包括:一种候选词评估方法,包括以下步骤:检测到错词,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。一种候选词评估装置,包括:候选词获取模块,用于检测到错词,获取错词对应的多个候选词;距离确定模块,用于确定各候选词与所述错词的编辑距离;相似度确定模块,用于确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;第二概率确定模块,用于分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;出错信息获取模块,用于获取所述错词相对于各候选词的出错信息;以及,第十三评估模块,用于根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。上述候选词评估方法及装置,确定候选词与错词的编辑距离和相似度,并确定候选词的评估概率,根据编辑距离、相似度、评估概率以及出错信息来确定各个候选词对应的评估得分,进而对各个候选词进行评估;既考虑到了词书写的现象问题,还将上下文语言环境的信息考虑进来,由此有利于提高候选词评估结果的准确性。一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述候选词评估方法。上述计算机设备,通过所述处理器上运行的计算机程序,有利于提高候选词评估结果的准确性。一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述候选词评估方法。上述计算机存储介质,通过其存储的计算机程序,有利于提高候选词评估结果的准确性。附图说明图1为一个实施例中候选词评估方法的应用环境图;图2为第一实施例的候选词评估方法的示意性流程图;图3为第二实施例的候选词评估方法的示意性流程图;图4为第三实施例的候选词评估方法的示意性流程图;图5为第四实施例的候选词评估方法的示意性流程图;图6为第五实施例的候选词评估方法的示意性流程图;图7为第六实施例的候选词评估方法的示意性流程图;图8为第七实施例的候选词评估方法的示意性流程图;图9为第八实施例的候选词评估方法的示意性流程图;图10为第九实施例的候选词评估方法的示意性流程图;图11为第十实施例的候选词评估方法的示意性流程图;图12为第十一实施例的候选词评估方法的示意性流程图;图13为第十二实施例的候选词评估方法的示意性流程图;图14为第十三实施例的候选词评估方法的示意性流程图;图15为十四实施例的候选词评估装置的示意性结构图;图16为十五实施例的候选词评估装置的示意性结构图;图17为十六实施例的候选词评估装置的示意性结构图;图18为十七实施例的候选词评估装置的示意性结构图;图19为十八实施例的候选词评估装置的示意性结构图;图20为十九实施例的候选词评估装置的示意性结构图;图21为二十实施例的候选词评估装置的示意性结构图;图22为二十一实施例的候选词评估装置的示意性结构图;图23为二十二实施例的候选词评估装置的示意性结构图;图24为二十三实施例的候选词评估装置的示意性结构图;图25为二十四实施例的候选词评估装置的示意性结构图;图26为二十五实施例的候选词评估装置的示意性结构图;图27为二十六实施例的候选词评估装置的示意性结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。本申请提供的候选词评估方法,可以应用于如图1所示的应用环境中。该计算机设备的内部结构图可以如图1所示,包括通过系统总线连接的处理器、存储器、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种候选词评估方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。该计算机设备可以是终端,包括但不限于是各种个人计算机、笔记本电脑、智能手机和智能交互平板;当为智能交互平板时,其能够检测并识别用户的书写操作,还能够对书写操作的内容进行检错,甚至,还可以自动对书写错误的词进行纠错。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。如图2所示,在第一实施例中,提供了一种候选词评估方法,包括以下步骤:步骤S11,检测到错词,获取错词对应的多个候选词。错词包括拼写错误的词或者书写错误的词,均是在相应的词库中不存在的词。错词可以为符号、字、词语、英文单词等文本类词语。候选词可以为根据该错词确定的与该错词相似的词,即有可能是该错词对应的正确词(纠错词)。候选词可以为一个、两个、三个等,本专利技术实施例对候选词的个数不做限制。若确定的候选词为一个,则直接将该候选词作为纠错词。其中,检测错词的方式可以采用多种方式实现,例如字典检测方式,本专利技术实施例对检测错词的方式不做限制。步骤S12,确定各候选词与所述错词的编辑距离。候选词与错词的编辑距离用于衡量候选词与所述错词的差别程度;可以指候选词与该错本文档来自技高网...

【技术保护点】
1.一种候选词评估方法,其特征在于,包括:检测到错词,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。

【技术特征摘要】
1.一种候选词评估方法,其特征在于,包括:检测到错词,获取错词对应的多个候选词;确定各候选词与所述错词的编辑距离;确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列和/或最长公共子串得到;分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;获取所述错词相对于各候选词的出错信息;根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分。2.根据权利要求1所述的候选词评估方法,其特征在于,所述确定各候选词与错词的相似度的步骤包括:根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,计算各候选词与所述错词的相似度;或者,根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,以及各候选词与所述错词的编辑距离,计算各候选词与所述错词的相似度。3.根据权利要求2所述的候选词评估方法,其特征在于,所述根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,以及各候选词与所述错词的编辑距离,计算各候选词与所述错词的相似度的步骤,包括:根据各候选词与所述错词的最长公共子序列率、最长公共子串率中的至少一个,以及各候选词与所述错词的编辑距离的倒数,计算各候选词与所述错词的相似度。4.根据权利要求1所述的候选词评估方法,其特征在于,所述根据所述候选语句确定对应候选词的评估概率的步骤包括:根据预设的语言模型计算候选语句中候选词、候选词的临近词各自在其位置的概率,将所述概率的log值作为各词的语言环境概率;对候选语句中候选词的语言环境概率、候选词的临近词的语言环境概率求平均,得到所述候选语句中候选词的评估概率。5.根据权利要求4所述的候选词评估方法,其特征在于,所述根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分的步骤包括:根据所述编辑距离的倒数、相似度、评估概率的倒数以及出错信息,确定各候选词对应的评估得分;和/或,所述语言模型包括N-Gram模型、BiLSTM模型或者LSTM模型。6.根据权利要求1至5任一所述的候选词评估方法,其特征在于,所述错词相对于各候选词的出错信息中包括:所述错词与候选词是否首字母相同的信息;所述根据所述编辑距离、相似度、评估概率以及出错信息,确定各候选词对应的评估得分的步骤包括:若错词与候选词首字母相同,则根据所述编辑距离、相似度、评估概率以及第一系数计算所述候选词的评估得分;若错词与候选词首字母不同,则根据所述编辑距离、相似度、评估概率以及第二系数计算所述候选词的评估得分。7.根据权利要求6所述的候选词评估方法,其特征在于,还包括步骤:检测到待检测词不在预设词库中,确定所述待检测词为错词。8.根据权利要求7所述的候选词评估方法,其特征在于,检测到错词之后,还包括步骤:计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。9.根据权利要求1、2、3、4、5、7、8中任一所述的候选词评估方法,其特征在于,还包括步骤:根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词;和/或,根据所述评估得分对所述多个候选词进行排序,显示排序后的所述多个候选词。10.根据权利要求9所述的候选词评估方法,其特征在于,所述根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词的步骤包括:从所述多个候选词中确定出所述评估得分最高的候选词,作为所述错词对应的纠错词。11.根据权...

【专利技术属性】
技术研发人员:李贤
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1