【技术实现步骤摘要】
一种中文校对方法、装置及电子设备
[0001]本专利技术涉及计算机
,特别是涉及一种中文校对方法、装置及电子设备。
技术介绍
[0002]随着网络的发展,文字编辑已成为线上办公的重要组成部分。由于中文中存在大量的同音、近音和形近字,十分容易形成错误,因此,对文档的校对也十分重要。
[0003]现有技术中,通常采用人工校对方式对文档进行校对,如由工作人员逐字进行校对。然而,采用这种校对方式导致文字校对的准确度较低。
技术实现思路
[0004]本专利技术实施例的目的在于提供一种中文校对方法、装置及电子设备,用以提高文字校对的准确度的问题。具体技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种中文校对方法,包括:
[0006]获得待校对的目标句;
[0007]针对所述目标句中每一文字,根据每一文字所在的上下文信息,提取每一文字的语义特征;
[0008]针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,得到每一文字的关联特征,其中,所述参考文字为:在所述目标句中与每一文字相邻的文字,所述每一文字的关联特征为:所述每一文字与所述参考文字之间关联关系的特征;
[0009]根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;
[0010]在文字发生错误的情况下,确定包含发生错误的文字的预设混淆集,从所述预设混淆集中确定目标文字,通过所述目标文字对发生错误的文字进行校对,其中,所述预设混淆 ...
【技术保护点】
【技术特征摘要】
1.一种中文校对方法,其特征在于,包括:获得待校对的目标句;针对所述目标句中每一文字,根据每一文字所在的上下文信息,提取每一文字的语义特征;针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,得到每一文字的关联特征,其中,所述参考文字为:在所述目标句中与每一文字相邻的文字,所述每一文字的关联特征为:所述每一文字与所述参考文字之间关联关系的特征;根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;在文字发生错误的情况下,确定包含发生错误的文字的预设混淆集,从所述预设混淆集中确定目标文字,通过所述目标文字对发生错误的文字进行校对,其中,所述预设混淆集中包含相近文字。2.根据权利要求1所述的方法,其特征在于,所述根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误,包括:针对每一文字,对每一文字的语义特征以及参考语义特征进行特征融合,得到第一融合特征,并对每一文字的语义特征以及关联特征进行特征融合,得到第二融合特征;对各文字对应的参考语义特征、关联特征、第一融合特征以及第二融合特征进行特征拼接,根据拼接得到的特征,预测各文字是否发生错误。3.根据权利要求2所述的方法,其特征在于,所述根据拼接得到的特征,预测各文字是否发生错误,包括:根据拼接得到的特征,计算各文字对应预设动作的第一概率分布,其中,所述预设动作包括文字复制动作和文字替换动作;根据各文字对应的第一概率分布,预测各文字是否发生错误。4.根据权利要求3所述的方法,其特征在于,所述根据拼接得到的特征,计算各文字对应预设动作的第一概率分布,包括:按照以下表达式计算各文字对应预设动作的第一概率分布:P
θ
(y
t
|X,y
1:t
‑1)=softmax(W2ReLU(W1S
t
+b1)+b2)其中,P
θ
表征第一概率分布,X为文字标识,y
t
为预设动作,y
1:t
‑1为所述目标句中位于文字X之前的每一文字所执行的动作,softmax()为逻辑回归函数,W2为第一预设权重矩阵,b2为第一预设偏置向量,ReLU()为激活函数,W1为第二预设权重矩阵,b1为第二预设偏置向量,S
t
为文字拼接得到的特征。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述从所述预设混淆集中确定目标文字,包括:根据所述预设混淆集中每一文字对应的混淆概率,从所述预设混淆集中选择文字,将选择得到的文字作为目标文字,其中,所述预设混淆集包含各相近文字,所述每一文字对应的混淆概率为:每一文字被误编辑为所述发生错误的文字的概率。6.根据权利要求5所述的方法,其特征在于,所述根据所述预设混淆集中每一文字对应的混淆概率,从所述预设混淆集中选择文字,将选择得到的文字作为目标文字,包括:确定所述预设混淆集中混淆概率最大的文字,将确定得到的文字作为目标文字。
7.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述针对所述目标句中每一文字,根据每一文字所在的上下文信息,提取每一文字的语义特征;针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,确定每一文字的关联特征,根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;在文字发生错误的情况下,确定包含发生错误的文字的预设混淆集,从所述预设混淆集中确定目标文字,各...
【专利技术属性】
技术研发人员:张贺丰,李阜阳,王浪,
申请(专利权)人:北京金山办公软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。