错别字检测方法、装置及计算机可读存储介质、终端设备制造方法及图纸

技术编号:19511320 阅读:81 留言:0更新日期:2018-11-21 07:47
本发明专利技术公开了一种错别字检测方法、装置及计算机可读存储介质、终端设备,所述方法包括:接收待检测语句;根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;根据每个所述语句概率,判断所述待检测文字是否为错别字。本发明专利技术能够提高错别字检测的准确率。

【技术实现步骤摘要】
错别字检测方法、装置及计算机可读存储介质、终端设备
本专利技术涉及文本处理
,尤其涉及一种错别字检测方法、装置及计算机可读存储介质、终端设备。
技术介绍
文本是记载信息的重要载体,随着信息处理技术和互联网技术的高速发展,传统的文本工作已逐渐被计算机等电子设备所取代,文本的生成方式也相应的由人工书写变成了人工编辑,而人工编辑在实际操作时可能会出现操作失误的情况,导致人工编辑的文本中出现错别字,从而影响文本质量,因此,对错别字的检测具有十分重要的意义。现有技术提供的错别字检测方法大都在接收到用户输入的文字后,对用户输入的文字进行一定的处理,然后计算得到处理之后的文字的概率并与预设的概率阈值进行比较,最后根据比较结果确定用户输入的文字是否为错别字,当计算得到文字的概率小于预设的概率阈值时,判定用户输入的文字为错别字,当计算得到文字的概率不小于预设的概率阈值时,判定用户输入的文字为正确字;由此可见,现有技术提供的技术方案在计算得到文字的概率之后往往只根据一个概率阈值来判断文字的正确性,判断方式较为简单,且没有考虑到文字所处的语句语境,因此,错别字的检测结果可能与实际情况不符,检测准确率低。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种错别字检测方法、装置及计算机可读存储介质、终端设备,能够提高错别字检测的准确率。为了解决上述技术问题,本专利技术实施例提供了一种错别字检测方法,包括:接收待检测语句;根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;根据每个所述语句概率,判断所述待检测文字是否为错别字。与现有技术相比,本专利技术实施例提供了一种错别字检测方法,当待检测文字的文字概率满足一定的条件时,获得待检测文字对应的替换文字的文字概率,当待检测文字的文字概率在所有替换文字的文字概率中满足一定的条件时,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,并根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。进一步地,所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率,具体包括:当判定所述待检测文字的文字概率p满足0.00001≤p≤0.1时,获得所述待检测文字对应的K个所述替换文字;根据所述待检测语句中的每个文字,分别获得每个所述替换文字的文字概率。进一步地,在所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率之后,所述当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集之前,还包括:将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;则当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集,具体包括:当判定k≥K1时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*20%。进一步地,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括:根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。进一步地,所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括:分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;根据预设的语句概率计算模型分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。进一步地,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;当n≥N1时,判定所述待检测文字为错别字。进一步地,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;当n=1时,判定所述待检测文字为正确字;当n≠1时,判定所述待检测文字为错别字。本专利技术实施例还提供了一种错别字检测装置,包括:语句接收模块,用于接收待检测语句;待检测文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;替换文字概率获取模块,用于当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;混淆集获取模块,用于当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;混淆语句获取模块,用于根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;语句概率获取模块,用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;以及,文字判断模块,用于根据每个所述语句概率,判断所述待检测文字是否为错别字。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的错别字检测方法。本专利技术实施例还提供了一种终端设备,包括至少一个存储器以及至少一个处理器;其中,所述存储器包括存储的至少一个计算机程序;所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的错别字检测方法。与现有技术相比,本专利技术实施例提供了一种错别字检测方法、装置及计算机可读存储介质、终端设备,当待检测文字的文字概率满足一定的条件时,获得待检测文字对应的替换文字的文字概率,当待检测文字的文字概率在所有替换文字的文字概率中满足一定的条件时,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,并根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。附图说明图1是本专利技术提供的错别字检测方法的一个优选本文档来自技高网...

【技术保护点】
1.一种错别字检测方法,其特征在于,包括:接收待检测语句;根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;根据每个所述语句概率,判断所述待检测文字是否为错别字。

【技术特征摘要】
1.一种错别字检测方法,其特征在于,包括:接收待检测语句;根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;根据每个所述语句概率,判断所述待检测文字是否为错别字。2.如权利要求1所述的错别字检测方法,其特征在于,所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率,具体包括:当判定所述待检测文字的文字概率p满足0.00001≤p≤0.1时,获得所述待检测文字对应的K个所述替换文字;根据所述待检测语句中的每个文字,分别获得每个所述替换文字的文字概率。3.如权利要求1所述的错别字检测方法,其特征在于,在所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率之后,所述当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集之前,还包括:将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;则当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集,具体包括:当判定k≥K1时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*20%。4.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括:根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。5.如权利要求1所述的错别字检测方法,其特征在于,所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括:分别获得所述待检测语句中的每个文字的文字概率和...

【专利技术属性】
技术研发人员:李贤
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1