基于实体的词法检查方法与装置和计算机设备及存储介质制造方法及图纸

技术编号：25599827 阅读：47 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开了一种基于实体的词法检查方法与装置和计算机设备及存储介质，方法包括：计算相邻三个词的词级N‑Gram得分，和相邻三个字的字级N‑Gram得分；通过计算词级N‑Gram得分与字级N‑Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文，替换之前的错别字词；对组合成的新文本进行分词、分字，使用词级N‑Gram计算词级的句子困惑度，使用字级N‑Gram计算字级的句子困惑度，计算句子的字词平均困惑度；对所述候选集合的候选字词计算困惑度之后，与原句子的困惑度进行比较，选取最小困惑度的候选字词作为最佳候选字词。

全部详细技术资料下载

【技术实现步骤摘要】
基于实体的词法检查方法与装置和计算机设备及存储介质
本专利技术涉及统计自然语言处理
，尤其涉及一种基于实体的词法检查方法与装置和计算机设备及存储介质。
技术介绍
在当前技术中，词法检测通常是基于编辑距离、语言模型、依存句法去校验同音错别字实现，限于语言模型和同音词库的质量的影响，当前的语法检测算法只限于查找同音错词，并且会出现大量误判的情况。因为当前的语法检测主要是基于单个字的识别，所以也会导致在连续两个字出错的情况下，使用编辑距离进行词替换时，往往是按照词序来进行纠错，这样就导致了纠错的成功率大大降低。公开于该
技术介绍
部分的信息仅仅旨在加深对本专利技术的总体
技术介绍
的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。基于上述原因，本专利技术提出了一种基于实体的词法检查方法与装置和计算机设备及存储介质。
技术实现思路
为了满足上述要求，本专利技术第一个目的在于提供一种基于实体的词法检查方法。本专利技术的第二个目的在于提供一种基于实体的词法检...

【技术保护点】
1.一种基于实体的词法检查方法，其特征在于，包括以下步骤：/n对待处理的文本分别进行分词、分字；/n计算相邻三个词的词级N-Gram得分，和相邻三个字的字级N-Gram得分；/n通过计算词级N-Gram得分与字级N-Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；/n统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文，替换之前的错别字词；/n对组合成的新文本进行分词、分字，使用词级N-Gram计算词级的句子困惑度，使用字级N-Gram计算字级的句子困惑度，计算句子的字词平均困惑度；/n对所述候选集合的候选字词计算困惑度之后，与原句子...

【技术特征摘要】
1.一种基于实体的词法检查方法，其特征在于，包括以下步骤：
对待处理的文本分别进行分词、分字；
计算相邻三个词的词级N-Gram得分，和相邻三个字的字级N-Gram得分；
通过计算词级N-Gram得分与字级N-Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；
统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文，替换之前的错别字词；
对组合成的新文本进行分词、分字，使用词级N-Gram计算词级的句子困惑度，使用字级N-Gram计算字级的句子困惑度，计算句子的字词平均困惑度；
对所述候选集合的候选字词计算困惑度之后，与原句子的困惑度进行比较，选取最小困惑度的候选字词作为最佳候选字词。

2.根据权利要求1所述的基于实体的词法检查方法，其特征在于，所述对待处理的文本分别进行分词、分字的步骤之前还包括，训练一套N-Gram语言模型，分别训练基于海量数据的字级语言模型和词级语言模型。

3.根据权利要求1所述的基于实体的词法检查方法，其特征在于，所述将值大于阈值的字词初步识别为错误字词的步骤之前还包括，排除词库中的词和自定义的混淆词典中的词。

4.根据权利要求1所述的基于实体的词法检查方法，其特征在于，所述创建错误字词集的步骤之后还包括实体词筛选处理。

5.根据权利要求4所述的基于实体的词法检查方法，其特征在于，所述实体词筛选处理包括，判断错误字词集中的词是否有实体，如果有实体则将该词从错误字词集中剔除掉。

6.根据权利要求5所述的基于实体的词法检查方法，其特征在于，所述实...

【专利技术属性】
技术研发人员：李勇斌，郑海涛，冯勤宇，赵从志，卢炳干，
申请(专利权)人：深圳市智搜信息技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人