一种中文拼写的检查方法技术

技术编号：27260230 阅读：73 留言：0更新日期：2021-02-06 11:17

本发明专利技术公开了一种中文拼写的检查方法，包括以下步骤：建立中文拼写检查模型；将中文拼写错误检查设置为序列标注任务；添加动态词语和拼音对模型进行训练；向训练后的模型中分别输入字符、词语和拼音；通过序列标注任务对模型中输入的字符、词语和拼音进行匹配。本发明专利技术能够有效融合字、词、拼音三者特征，能够不用分词且实现端到端的查错解决方案，避免繁琐的流程，并且融合字、词、拼音三种特征，无需进行分词，比传统查错方法更具有普遍性，更具有领域适应性。适应性。适应性。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文拼写的检查方法

[0001]本专利技术涉及文本自动查错
，尤其涉及一种中文拼写的检查方法。

技术介绍

[0002]随着信息处理技术的发展，传统的文本工作基本上全部被计算机所取代，并且随着互联网的发展，电子书、电子报纸、电子邮件等都成为人们日常生活的一部分，但是文本错误也越来越多，传统的人工检查效率低、强度大、周期长等问题显然不能满足文本拼写检查的需求，因此，文本自动查错技术影响着出版业节奏和出版业的发展，所以研究自动文本检查具有很重要的实用意义。
[0003]中文拼写检查与英语不同，首先，英语每个单词之间有天然的分隔符，比如空格、逗号等，而中文字与字之间是没有明显的界限的。其次，在英语中，大部分错误都来源于单词拼写错误，这些错误大都可以直接通过查找字典的方式检查出来，而中文里每个字都是合法的，中文的错误都需要结合上下文语境才能看出来，而目前所使用的检查只用到了字、词的特征，没有用到拼音特征。

技术实现思路

[0004]为克服相关技术中存在的问题，本专利技术实施例提供一种中文拼写的检查方法，融合字、词、拼音三者特征，不用分词且实现端到端的查错。
[0005]本专利技术实施例提供一种中文拼写的检查方法，包括以下步骤：
[0006]建立中文拼写检查模型；
[0007]将中文拼写错误检查设置为序列标注任务；
[0008]添加动态词语和拼音对模型进行训练；
[0009]向训练后的模型中分别输入字符、词语和拼音；
[0010]通过序列标注任务对...

【技术保护点】

【技术特征摘要】
1.一种中文拼写的检查方法，其特征在于，包括以下步骤：建立中文拼写检查模型；将中文拼写错误检查设置为序列标注任务；添加动态词语和拼音对中文拼写模型进行训练；向训练后的中文拼写模型中分别输入字符、词语和拼音；通过序列标注任务对中文拼写模型中输入的字符、词语和拼音进行匹配。2.根据权利要求1所述的中文拼写的检查方法，其特征在于，所述中文拼写检查模型基于神经序列建立。3.根据权利要求1所述的中文拼写的检查方法，其特征在于，所述将中文拼写错误检查设置为序列标注任务，进一步包括，对于每个字符c
i
都赋予一个标签l
i
∈{T,F}，T和F分别代表正确和错误的字符，被标记为F的字符即视为错字，多个字符c
i
组成句子，句子的运算公式如下：s＝c1,c2,...,c
m
，c
i
表示句子s的第i个字符，m表示句子的长度。4.根据权利要求1所述的中文拼写的检查方法，其特征在于，所述中文拼写检查模型中分别输入字符、词语和拼音中，进一步包括，字符、词语和拼音分别用第一embedding、第二embedding和第三embedding进行表示，公式如下：c
i
表示输入句子的第i个字符，表示字符c
i
对应的向量，和分别表示子串c
b
,c
b+1
,...,c
e
的词语向量和拼音向量，e
c
、e
w
和e
p
分别表示字符、词语、拼音对应的第一embedding查找表，第二embedding查找表，第三embedding查找表。5.根据权利要求1所述的中文拼写的检查方法，其特征在于，所述通过序列标注任务对模型中输入的字...

【专利技术属性】
技术研发人员：段建勇，王昊，张梅，马东超，王冰，潘利建，袁阳，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人