【技术实现步骤摘要】
一种错别字检测方法、装置及设备
[0001]本申请涉及数据处理领域,具体涉及一种错别字检测方法、装置及设备。
技术介绍
[0002]在文本生成的过程中,可能存在着由于撰写错误所导致的错别字。错别字是在特定语境中或者是特定词汇中使用错误的字符,错别字具有对应的正确的字符。在对文本进行处理的过程中,为了从文本中获取较为准确的信息,需要确保文本的正确性。错别字会影响到文本的结构以及文本所表示的信息,在文本处理之前需要对文本中的错别字进行检测,以便对文本中的错别字进行修正。
[0003]目前,在通过神经网络模型对错别字进行检测的方法中,错别字检测的准确性较低。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种错别字检测方法、装置及设备,能够提高错别字检测的准确性。
[0005]为解决上述问题,本申请实施例提供的技术方案如下:
[0006]一种错别字检测方法,所述方法包括:
[0007]获取待检测分句;
[0008]将所述待检测分句输入错别字检测模型,得到所述错别字检测模型输出的各个原始字符对应的预测字符;所述错别字检测模型用于利用正向排序的所述待检测分句中第1个到第m个原始字符得到所述第m个原始字符对应的第一预测结果,利用反向排序的所述待检测分句中第n个到第m个原始字符得到所述第m个原始字符对应的第二预测结果,根据所述第m个原始字符对应的第一预测结果以及第二预测结果得到所述待检测分句中第m个原始字符对应的预测字符;其中,n为所述待检测分句的字符数量,m的取值分别 ...
【技术保护点】
【技术特征摘要】
1.一种错别字检测方法,其特征在于,所述方法包括:获取待检测分句;将所述待检测分句输入错别字检测模型,得到所述错别字检测模型输出的各个原始字符对应的预测字符;所述错别字检测模型用于利用正向排序的所述待检测分句中第1个到第m个原始字符得到所述第m个原始字符对应的第一预测结果,利用反向排序的所述待检测分句中第n个到第m个原始字符得到所述第m个原始字符对应的第二预测结果,根据所述第m个原始字符对应的第一预测结果以及第二预测结果得到所述待检测分句中第m个原始字符对应的预测字符;其中,n为所述待检测分句的字符数量,m的取值分别为1到n的整数;将所述待检测分句中与对应的预测字符不一致的原始字符确定为错别字。2.根据权利要求1所述的方法,其特征在于,所述错别字检测模型具体用于:提取所述待检测分句中各个原始字符的字特征;利用正向排序的所述待检测分句中第1个到第m个原始字符的字特征,得到所述第m个原始字符对应的各个预测标签的第一概率值;利用反向排序的所述待检测分句中第n个到第m个原始字符的字特征,得到所述第m个原始字符对应的各个预测标签的第二概率值;将所述第m个原始字符对应的各个预测标签的第一概率值以及第二概率值进行融合,得到所述第m个原始字符对应的各个预测标签的第一总概率值;将所述第一总概率值最大的预测标签确定为所述待检测分句中第m个原始字符对应的预测字符。3.根据权利要求1所述的方法,其特征在于,所述错别字检测模型具体用于:提取所述待检测分句中各个原始字符的字特征;利用正向排序的所述待检测分句中第1个到第m个原始字符的字特征,得到所述第m个原始字符对应的各个预测标签的第一概率值;将所述第m个原始字符对应的各个预测标签的第一概率值乘以所述第m个原始字符对应的第一正向置信度得到所述第m个原始字符对应的各个预测标签的第三概率值;所述第一正向置信度取值为m/n;利用反向排序的所述待检测分句中第n个到第m个原始字符的字特征,得到所述第m个原始字符对应的各个预测标签的第二概率值;将所述第m个原始字符对应的各个预测标签的第二概率值乘以所述第m个原始字符对应的第一反向置信度得到所述第m个原始字符对应的各个预测标签的第四概率值;所述第一反向置信度取值为(n-m+1)/n;将所述第m个原始字符对应的各个预测标签的第三概率值以及第四概率值进行融合,得到所述第m个原始字符对应的各个预测标签的第二总概率值;将所述第二总概率值最大的预测标签确定为所述待检测分句中第m个原始字符对应的预测字符。4.根据权利要求2所述的方法,其特征在于,所述错别字检测模型的训练过程包括:获取训练分句,其中,正向排序的所述训练分句中第1个到第i个字符对应的标签为所述第i个字符,反向排序的所述训练分句中第k个到第i个字符对应的标签为所述第i个字符;k为所述训练分句的字符数量,i的取值分别为1到k的整数;
将所述训练分句输入待训练错别字检测模型,以使所述待训练错别字检测模型利用正向排序的所述训练分句中第1个到第i个字符的字特征以及所述训练分句中第1个到第i个字符对应的标签,得到所述第i个字符对应的第一损失值,将所述训练分句中第1个到第k个字符的第一损失值相加得到正向损失值;利用反向排序的所述训练分句中第k个到第i个字符的字特征以及所述训练分句中第k个到第i个字符对应的标签,得到所述第i个字符对应的第二损失值,将所述训练分句中第1个到第k个字...
【专利技术属性】
技术研发人员:顾文剑,贾弼然,蔡巍,张霞,
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。