一种错别字检测方法、装置及计算机存储介质、电子设备制造方法及图纸

技术编号:23149859 阅读:43 留言:0更新日期:2020-01-18 13:46
一种错别字检测方法、装置及计算机存储介质、电子设备,包括:确定待检测的文本数据;将所述文本数据转为拼音数据;生成所述拼音数据的基于ngram模型的特征模板;将所述拼音数据的特征模板输入至预先构建的错别字检测模型;所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到;根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。采用本申请中的方案,可以简单高效的检测出错别字。

A method, device, computer storage medium and electronic equipment for detecting typography

【技术实现步骤摘要】
一种错别字检测方法、装置及计算机存储介质、电子设备
本申请涉及数据处理技术,具体地,涉及一种错别字检测方法、装置及计算机存储介质、电子设备。
技术介绍
随着智能手机和其他移动设备的普及,人们之间的沟通以拼音打字为主。由于打字过程中存在各种偶然因素,例如打字太快、生僻字没找到、或者手误等,可能导致沟通过程中出现一些错别字。对于人来说错别字可以通过人的大脑识别并更正,然而,对于机器来说错别字可能会带来很大问题。在计算机中,字是以0、1来存储的,不同的字有不同的数值,数值之间是独立的,并不像文字那样有相关关系(例如读音相同、字形相似等)。这就导致人用计算机沟通时计算机在进行自然语言处理时需要进行错别字纠正。目前错别字识别的技术主要是根据大量文本基于频率和字典的方法来进行错别字识别;这种方式过程复杂,计算速度不高,且错别字识别需要时常更新。现有技术中存在的问题:现有识别错别字的方法过程复杂且效率较低。
技术实现思路
本申请实施例中提供了一种错别字检测方法、装置及计算机存储介质、电子设备,以解决上述技术问题。根据本申请实施例的第一个方面,提供了一种错别字检测方法,包括:确定待检测的文本数据;将所述文本数据转为拼音数据;生成所述拼音数据的基于ngram模型的特征模板;将所述拼音数据的特征模板输入至预先构建的错别字检测模型;所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到;根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。根据本申请实施例的第二个方面,提供了一种错别字检测装置,包括:数据确定模块,用于确定待检测的文本数据;拼音转换模块,用于将所述文本数据转为拼音数据;模板生成模块,用于生成所述拼音数据的基于ngram模型的特征模板;模型检测模块,用于将所述拼音数据的特征模板输入至预先构建的错别字检测模型;所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到;结果确定模块,用于根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。根据本申请实施例的第四个方面,提供了一种电子设备,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的方法。本申请实施例中提供的错别字检测方法、装置及计算机存储介质、电子设备,将待检测的文本数据转为拼音后,生成该拼音数据的特征模板输入至预先构建的错别字检测模型中进而检测确定该文本数据是否存在错别字,本申请实施例将CRF模型应用于错别字的检测,并添加了基于ngram语言模型的特征模板,有效结合了语言模型和CRF特征函数扩展性的特点,使得错别字检测过程简单且效率高。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出了本申请实施例一中错别字检测方法实施的流程示意图;图2示出了本申请实施例二中错别字检测装置的结构示意图;图3示出了本申请实施例四中电子设备的结构示意图。具体实施方式在实现本申请的过程中,专利技术人发现:基于长短记忆神经网络模型(LSTM,LongShort-TermMemory)可以考虑用来纠正错别字;但这种方式虽然可以解决基于频率和字典方式的更新不便的问题,但LSTM对于长文本预测有优势,而语句中错别字属于文本中的局部问题,LSTM对于局部问题的处理效果一般。针对上述问题,本申请实施例中提供了一种错别字检测方法、装置及计算机存储介质、电子设备,通过对训练样本进行训练构建CRF模型的特征模板,再对所述CRF模型进行训练,调整该CRF模型的参数,进而识别并纠正错别字,可以快速准确的纠正错别字,简便快捷。CRF模型,条件随机场ConditionalRandomField模型,CRF的数学语言描述为:设X和Y为随机变量,P(Y|X)为给定X时Y的条件概率分布,若随机变量Y构成的是一个马尔科夫随机场,则称条件概率分布P(Y|X)为条件随机场。ngram模型,是一种语言模型,利用上下文中相邻词间的搭配信息实现到汉字的自动转换,假设第N个词的出现只与前面N-1个词相关,而与其他任何词都不相关,整个语句的概率就是各个词出现概率的乘积。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。实施例一图1示出了本申请实施例一中错别字检测方法实施的流程示意图。如图所示,所述错别字检测方法包括:步骤101、确定待检测的文本数据;步骤102、将所述文本数据转为拼音数据;步骤103、生成所述拼音数据的基于ngram模型的特征模板;步骤104、将所述拼音数据的特征模板输入至预先构建的错别字检测模型;所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到;步骤105、根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。具体实施时,所述待检测的文本数据为汉字或中文。所述将文本数据转为拼音数据具体可以采用现有技术中的中文转换拼音、或汉字转换拼音工具或算法实现,目前已有汉字转拼音等应用,本申请在此不做赘述。假设待检测的文本数据为“在短短的语言中藏有丰富的智慧”,所述将文本数据转为拼音数据,例如:“zaiduanduandeyuyanzhongcangyoufengfudezhihui”。再进一步生成所述拼音数据的基于ngram模型的特征模板,输入至预先构建的错别字检测模型中,由于所述错别字检测模型是根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到的,因此,可以直接输出该待检测文本数据是否存在错别字。本申请实施例中提供的错别字检测方法,将待检测的文本数据转为拼音后,生成该拼音数据的特征模板输入至预先构建的错别字检测模型中进而检测确定该文本数据是否存在错别字,本申请实施例将CRF模型应用于错别字的检测,并添加了基于ngram语言模型的特征模板,有效结合了语言模型和CRF特征函数扩展性的特点,使得错别字检测过程简单且效率高。在一种实施方式中,所述生成所述拼音数据的特征模板,包括本文档来自技高网...

【技术保护点】
1.一种错别字检测方法,其特征在于,包括:/n确定待检测的文本数据;/n将所述文本数据转为拼音数据;/n生成所述拼音数据的基于ngram模型的特征模板;/n将所述拼音数据的基于ngram模型的特征模板输入至预先构建的错别字检测模型;所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到;/n根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。/n

【技术特征摘要】
1.一种错别字检测方法,其特征在于,包括:
确定待检测的文本数据;
将所述文本数据转为拼音数据;
生成所述拼音数据的基于ngram模型的特征模板;
将所述拼音数据的基于ngram模型的特征模板输入至预先构建的错别字检测模型;所述错别字检测模型根据条件随机场CRF模型以及基于ngram模型的特征模板训练得到;
根据所述错别字检测模型的输出结果确定所述待检测的文本数据是否存在错别字。


2.根据权利要求1所述的方法,其特征在于,所述错别字检测模型的构建过程如下:
搜集训练语料;
对所述训练语料标记拼音;
生成所述拼音的基于ngram模型的特征模板;
将所述特征模板作为特征函数对CRF模型进行训练,得到所述错别字检测模型。


3.根据权利要求1或2所述的方法,其特征在于,所述生成所述拼音数据的特征模板,包括:
根据每个拼音的前后拼音,为每个拼音生成第一特征;
根据每个拼音在所述拼音数据中出现的次数,为每个拼音生成第二特征;
将所述拼音数据按照预设窗口2或3提取,生成二元字组,并分别以所述二元字组中每个字为ngram特征生成两个第三特征;
根据所述第一特征、第二特征以及两个第三特征生成所述拼音数据的特征模板;所述拼音数据的特征模板包括每个拼音的特征模板。


4.根据权利要求3所述的方法,其特征在于,所述根据每个拼音的前后拼音,为每个拼音生成第一特征,包括:
确定当前拼音在所述拼音数据中的前一个拼音和后一个拼音;
生成所述当前拼音的第一特征;
其中,所述第一特征=(当前拼音,所述当前拼音的前一个拼音,所述当前拼音的后一个拼音)。


5.根据权利要求3所述的方法,其特征在于,所述将所述拼音数据按照预设窗口2或3提取,生成二元字组,并分别所述二元字组中每个字为ngram特征生成两个第...

【专利技术属性】
技术研发人员:龚伟松郭得庆
申请(专利权)人:上海凯京信达科技集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利