一种错别字检测方法、装置及计算机存储介质、电子设备制造方法及图纸

技术编号：23149859 阅读：43 留言：0更新日期：2020-01-18 13:46

一种错别字检测方法、装置及计算机存储介质、电子设备，包括：确定待检测的文本数据；将所述文本数据转为拼音数据；生成所述拼音数据的基于ngram模型的特征模板；将所述拼音数据的特征模板输入至预先构建的错别字检测模型；所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到；根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。采用本申请中的方案，可以简单高效的检测出错别字。

A method, device, computer storage medium and electronic equipment for detecting typography

全部详细技术资料下载

【技术实现步骤摘要】
一种错别字检测方法、装置及计算机存储介质、电子设备
本申请涉及数据处理技术，具体地，涉及一种错别字检测方法、装置及计算机存储介质、电子设备。
技术介绍
随着智能手机和其他移动设备的普及，人们之间的沟通以拼音打字为主。由于打字过程中存在各种偶然因素，例如打字太快、生僻字没找到、或者手误等，可能导致沟通过程中出现一些错别字。对于人来说错别字可以通过人的大脑识别并更正，然而，对于机器来说错别字可能会带来很大问题。在计算机中，字是以0、1来存储的，不同的字有不同的数值，数值之间是独立的，并不像文字那样有相关关系(例如读音相同、字形相似等)。这就导致人用计算机沟通时计算机在进行自然语言处理时需要进行错别字纠正。目前错别字识别的技术主要是根据大量文本基于频率和字典的方法来进行错别字识别；这种方式过程复杂，计算速度不高，且错别字识别需要时常更新。现有技术中存在的问题：现有识别错别字的方法过程复杂且效率较低。
技术实现思路
本申请实施例中提供了一种错别字检测方法、装置及计算机存储介质、电子设备，以解决上述技术问题。根据本申请实施例的第一个方面，提供了一种错别字检测方法，包括：确定待检测的文本数据；将所述文本数据转为拼音数据；生成所述拼音数据的基于ngram模型的特征模板；将所述拼音数据的特征模板输入至预先构建的错别字检测模型；所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到；根据所述错别字检测模型的输...

【技术保护点】
1.一种错别字检测方法，其特征在于，包括：/n确定待检测的文本数据；/n将所述文本数据转为拼音数据；/n生成所述拼音数据的基于ngram模型的特征模板；/n将所述拼音数据的基于ngram模型的特征模板输入至预先构建的错别字检测模型；所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到；/n根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。/n

【技术特征摘要】
1.一种错别字检测方法，其特征在于，包括：
确定待检测的文本数据；
将所述文本数据转为拼音数据；
生成所述拼音数据的基于ngram模型的特征模板；
将所述拼音数据的基于ngram模型的特征模板输入至预先构建的错别字检测模型；所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到；
根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。

2.根据权利要求1所述的方法，其特征在于，所述错别字检测模型的构建过程如下：
搜集训练语料；
对所述训练语料标记拼音；
生成所述拼音的基于ngram模型的特征模板；
将所述特征模板作为特征函数对CRF模型进行训练，得到所述错别字检测模型。

3.根据权利要求1或2所述的方法，其特征在于，所述生成所述拼音数据的特征模板，包括：
根据每个拼音的前后拼音，为每个拼音生成第一特征；
根据每个拼音在所述拼音数据中出现的次数，为每个拼音生成第二特征；
将所述拼音数据按照预设窗口2或3提取，生成二元字组，并分别以所述二元字组中每个字为ngram特征生成两个第三特征；
根据所述第一特征、第二特征以及两个第三特征生成所述拼音数据的特征模板；所述拼音数据的特征模板包括每个拼音的特征模板。

4.根据权利要求3所述的方法，其特征在于，所述根据每个拼音的前后拼音，为每个拼音生成第一特征，包括：
确定当前拼音在所述拼音数据中的前一个拼音和后一个拼音；
生成所述当前拼音的第一特征；
其中，所述第一特征＝(当前拼音，所述当前拼音的前一个拼音，所述当前拼音的后一个拼音)。

5.根据权利要求3所述的方法，其特征在于，所述将所述拼音数据按照预设窗口2或3提取，生成二元字组，并分别所述二元字组中每个字为ngram特征生成两个第...

【专利技术属性】
技术研发人员：龚伟松，郭得庆，
申请(专利权)人：上海凯京信达科技集团有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人