一种中文拼写的检查方法技术

技术编号:27260230 阅读:73 留言:0更新日期:2021-02-06 11:17
本发明专利技术公开了一种中文拼写的检查方法,包括以下步骤:建立中文拼写检查模型;将中文拼写错误检查设置为序列标注任务;添加动态词语和拼音对模型进行训练;向训练后的模型中分别输入字符、词语和拼音;通过序列标注任务对模型中输入的字符、词语和拼音进行匹配。本发明专利技术能够有效融合字、词、拼音三者特征,能够不用分词且实现端到端的查错解决方案,避免繁琐的流程,并且融合字、词、拼音三种特征,无需进行分词,比传统查错方法更具有普遍性,更具有领域适应性。适应性。适应性。

【技术实现步骤摘要】
一种中文拼写的检查方法


[0001]本专利技术涉及文本自动查错
,尤其涉及一种中文拼写的检查方法。

技术介绍

[0002]随着信息处理技术的发展,传统的文本工作基本上全部被计算机所取代,并且随着互联网的发展,电子书、电子报纸、电子邮件等都成为人们日常生活的一部分,但是文本错误也越来越多,传统的人工检查效率低、强度大、周期长等问题显然不能满足文本拼写检查的需求,因此,文本自动查错技术影响着出版业节奏和出版业的发展,所以研究自动文本检查具有很重要的实用意义。
[0003]中文拼写检查与英语不同,首先,英语每个单词之间有天然的分隔符,比如空格、逗号等,而中文字与字之间是没有明显的界限的。其次,在英语中,大部分错误都来源于单词拼写错误,这些错误大都可以直接通过查找字典的方式检查出来,而中文里每个字都是合法的,中文的错误都需要结合上下文语境才能看出来,而目前所使用的检查只用到了字、词的特征,没有用到拼音特征。

技术实现思路

[0004]为克服相关技术中存在的问题,本专利技术实施例提供一种中文拼写的检查方法,融合字、词、拼音三者特征,不用分词且实现端到端的查错。
[0005]本专利技术实施例提供一种中文拼写的检查方法,包括以下步骤:
[0006]建立中文拼写检查模型;
[0007]将中文拼写错误检查设置为序列标注任务;
[0008]添加动态词语和拼音对模型进行训练;
[0009]向训练后的模型中分别输入字符、词语和拼音;
[0010]通过序列标注任务对模型中输入的字符、词语和拼音进行匹配。
[0011]进一步地,所述中文拼写检查模型基于神经序列建立。
[0012]进一步包括,对于每个字符c
i
都赋予一个标签l
i
∈{T,F},T和F分别代表正确和错误的字符,被标记为F的字符即视为错字,多个字符c
i
组成句子,句子的运算公式如下:s=c1,c2,...,c
m
,c
i
表示句子s的第i个字符,m表示句子的长度。
[0013]进一步包括,字符、词语和拼音分别用第一embedding、第二embedding 和第三embedding进行表示,公式如下:c
i
表示输入句子的第i个字符,表示字符c
i
对应的向量,和分别表示子串c
b
,c
b+1
,...,c
e
的词语向量和拼音向量,e
c
、e
w
和e
p
分别表示字符、词语、拼音对应的第一 embedding查找表,第二embedding查找表,第三embedding查找表。
[0014]进一步包括,词语和拼音都采用原句子中的子串对预训练词向量表进行匹配,预训练词向量里的集合作为预训练词典,分别表示为D
w
和D
p
,分别代表词语和拼音的预训练词向量表,D
w
和D
p
都是使用word2vec在大规模语料上预训练得到的。
[0015]进一步地,所述词语将上一个节点的隐藏层输出状态和当前匹配的词语的向量表示作为输入,目标输出为传入以e为下标的节点,作为其输入的一部分,计算公式如下:
[0016]所述拼音与词语相同,将起始节点的隐藏层状态作为输入,拼音的另外一个输入是匹配到的拼音向量表示计算公式如下:
[0017]还包括,为了控制字符的向量表示、拼音与词语的输出,采用门控机制进行权重的控制,其计算公式如下:控制,其计算公式如下:表示每个词语的输出其计算得到的权重,表示每个拼音的输出其计算得到的权重,然后再归一化,使他们权重之和相加等于一,即所有以i作为结尾的的系数和以及字符c
i
的输入权重三者权重系数相加之和为一,实现归一化,
由此得到每个特征融合节点的计算公式:
[0018]还包括,所述对于中文拼写检查模型输出的隐藏层状态序列为h1,h2,...,h
m
,经过CRF层进行概率分析计算,输出概率最大的标签序列y=l1,l2,..,l
m
,概率计算公式如下:
[0019]本专利技术的实施例提供的技术方案具有以下有益效果:能够有效融合字、词、拼音三者特征,能够不用分词且实现端到端的查错解决方案,避免繁琐的流程,并且融合字、词、拼音三种特征,无需进行分词,比传统查错方法更具有普遍性,更具有领域适应性。
[0020]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0022]图1是本专利技术实施例中文拼写的检查方法的流程图。
具体实施方式
[0023]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置及相关应用、方法的例子。
[0024]图1是本专利技术实施例中文拼写的检查方法的流程图,如图1所示,该中文拼写的检查方法,包括以下步骤:
[0025]步骤101、基于神经序列建立中文拼写检查模型。
[0026]步骤102、将中文拼写错误检查设置为序列标注任务。
[0027]将中文拼写错误检查设置为序列标注任务对于每个字符c
i
都赋予一个标签 l
i
∈{T,F},T和F分别代表正确和错误的字符,被标记为F的字符即视为错字,句子的运算公式如下:s=c1,c2,...,c
m
,c
i
表示句子s的第i个字符,m表示句子的长度。
[0028]步骤103、添加动态词语和拼音对模型进行训练。
[0029]步骤104、向训练后的模型中分别输入字符、词语和拼音。
[0030]字符、词语和拼音分别用第一embedding、第二embedding和第三 embedding进行表示,公式如下:c
i
表示输入句子的第i个字符,表示字符c
i
对应的向量,和分别表示子串c
b
,c
b+1
,...,c
e
的词语向量和拼音向量,e
c
、e
w
和e
p
分别表示字符、词语、拼音对应的第一embedding查找表,第二embedding查找表,第三embedding查找表。
[0031]步骤105、通过序列标注任务对模型中输入的字符、词语和拼音进行匹配。
[0032]词语和拼音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文拼写的检查方法,其特征在于,包括以下步骤:建立中文拼写检查模型;将中文拼写错误检查设置为序列标注任务;添加动态词语和拼音对中文拼写模型进行训练;向训练后的中文拼写模型中分别输入字符、词语和拼音;通过序列标注任务对中文拼写模型中输入的字符、词语和拼音进行匹配。2.根据权利要求1所述的中文拼写的检查方法,其特征在于,所述中文拼写检查模型基于神经序列建立。3.根据权利要求1所述的中文拼写的检查方法,其特征在于,所述将中文拼写错误检查设置为序列标注任务,进一步包括,对于每个字符c
i
都赋予一个标签l
i
∈{T,F},T和F分别代表正确和错误的字符,被标记为F的字符即视为错字,多个字符c
i
组成句子,句子的运算公式如下:s=c1,c2,...,c
m
,c
i
表示句子s的第i个字符,m表示句子的长度。4.根据权利要求1所述的中文拼写的检查方法,其特征在于,所述中文拼写检查模型中分别输入字符、词语和拼音中,进一步包括,字符、词语和拼音分别用第一embedding、第二embedding和第三embedding进行表示,公式如下:c
i
表示输入句子的第i个字符,表示字符c
i
对应的向量,和分别表示子串c
b
,c
b+1
,...,c
e
的词语向量和拼音向量,e
c
、e
w
和e
p
分别表示字符、词语、拼音对应的第一embedding查找表,第二embedding查找表,第三embedding查找表。5.根据权利要求1所述的中文拼写的检查方法,其特征在于,所述通过序列标注任务对模型中输入的字...

【专利技术属性】
技术研发人员:段建勇王昊张梅马东超王冰潘利建袁阳
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1