错别词识别方法、相关设备及可读存储介质技术

技术编号：24331643 阅读：43 留言：0更新日期：2020-05-29 19:52

本申请公开了一种错别词识别方法、相关设备及可读存储介质，待识别的原始文本可能由于某个字或某几个字书写错误导致该原始文本中出现连续的字，在本申请中，通过获取原始文本中的出现连续的字组合生成原始字子串，并根据原始字子串，获取与原始文本对应的新增多字词，通过新增多字词可以确定出原始文本中对应新增多字词的某几个连续的字，该某几个连续的字则有可能是原始文本中的错别词。因此，基于本申请的方案，可以实现对文本中的错别词的识别。

Recognition method of misspellings, related equipment and readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
错别词识别方法、相关设备及可读存储介质
本申请涉及自然语言处理
，更具体的说，是涉及一种错别词识别方法、相关设备及可读存储介质。
技术介绍
随着信息处理技术和互联网的高速发展，传统的文本工作几乎全部被计算机所取代，电子书、电子报纸、电子邮件、办公文件等电子文本、博客、微博等都成为人们日常生活的一部分，然而文本错别字也越来越多，发现错别词是文本质检的一个重要应用方面。因此，如何识别文本中的错别词，成为本领域技术人员亟待解决的技术问题。
技术实现思路
鉴于上述问题，本申请提供一种错别词识别方法、相关设备及可读存储介质。具体方案如下：一种错别词识别方法，包括：获取待识别的原始文本中的原始字子串，所述原始字子串是由所述原始文本中连续的字组合生成的；根据所述原始字子串，确定与所述原始文本对应的新增多字词；基于所述新增多字词，识别所述原始文本中的错别词。可选的，所述根据所述原始字子串，确定与所述原始文本对应的新增多字词，包括：获取与所述原始字子串对应的新字...

【技术保护点】
1.一种错别词识别方法，其特征在于，包括：/n获取待识别的原始文本中的原始字子串，所述原始字子串是由所述原始文本中连续的字组合生成的；/n根据所述原始字子串，确定与所述原始文本对应的新增多字词；/n基于所述新增多字词，识别所述原始文本中的错别词。/n

【技术特征摘要】
1.一种错别词识别方法，其特征在于，包括：
获取待识别的原始文本中的原始字子串，所述原始字子串是由所述原始文本中连续的字组合生成的；
根据所述原始字子串，确定与所述原始文本对应的新增多字词；
基于所述新增多字词，识别所述原始文本中的错别词。

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始字子串，确定与所述原始文本对应的新增多字词，包括：
获取与所述原始字子串对应的新字子串，所述新字子串与所述原始字子串的长度和无调拼音相同；
采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子；
获取所述与原始文本对应的新句子的多字词；
从所述与原始文本对应的新句子的多字词中确定新增多字词。

3.根据权利要求2所述的方法，其特征在于，所述采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子，包括：
采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的待选新句子；
从所述待选新句子中选取出与所述原始文本对应的新句子。

4.根据权利要求2所述的方法，其特征在于，所述从所述与原始文本对应的新句子的多字词中确定新增多字词，包括：
获取所述与原始文本对应的新句子的多字词中每个多字词在所述原始文本中出现的词频；
按照词频对所述与原始文本对应的新句子的多字词进行降序排列，选取排序靠前的预设数量个多字词为所述新增多字词。

5.根据权利要求3所述的方法，其特征在于，所述基于所述新增多字词，识别所述原始文本中的错别词，包括：
从所述与所述原始文本对应的新句子中选取出目标新句子，所述目标新句子为包含所述新增多字词的新句子；
基于所述目标新句子，获取与所述原始文本对应的替换词；
确定所述原始文本中与所述替换词对应的字子串为所述原始文本中的错别词。

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标新句子，获取与所述原始文本对应的替换词，包括：
采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，获取与所述原始文本对应的新文本；
获取所述与所述原始文本对应的新文本中的新增多字词；
根据所述与所述原始文本对应的新文本中的新增多字词，确定与所述原始文本对应的替换词。

7.根据权利要求6所述的方法，其特征在于，所述采用所述目标...

【专利技术属性】
技术研发人员：王培养，方昕，李永超，刘海波，方磊，
申请(专利权)人：合肥讯飞数码科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人