一种中文校对方法、装置及电子设备制造方法及图纸

技术编号:36643598 阅读:16 留言:0更新日期:2023-02-18 13:01
本发明专利技术实施例提供了一种中文校对方法、装置及电子设备,应用于计算机技术领域;上述方法包括:获得待校对的目标句;针对目标句中每一文字,根据每一文字所在的上下文信息,提取各文字的语义特征;针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,得到每一文字的关联特征;根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;在文字发生错误的情况下,通过目标文字对发生错误的文字进行校对。应用本实施例提供的方案进行中文校对时,提高了文字校对的准确度。提高了文字校对的准确度。提高了文字校对的准确度。

【技术实现步骤摘要】
一种中文校对方法、装置及电子设备


[0001]本专利技术涉及计算机
,特别是涉及一种中文校对方法、装置及电子设备。

技术介绍

[0002]随着网络的发展,文字编辑已成为线上办公的重要组成部分。由于中文中存在大量的同音、近音和形近字,十分容易形成错误,因此,对文档的校对也十分重要。
[0003]现有技术中,通常采用人工校对方式对文档进行校对,如由工作人员逐字进行校对。然而,采用这种校对方式导致文字校对的准确度较低。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种中文校对方法、装置及电子设备,用以提高文字校对的准确度的问题。具体技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种中文校对方法,包括:
[0006]获得待校对的目标句;
[0007]针对所述目标句中每一文字,根据每一文字所在的上下文信息,提取每一文字的语义特征;
[0008]针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,得到每一文字的关联特征,其中,所述参考文字为:在所述目标句中与每一文字相邻的文字,所述每一文字的关联特征为:所述每一文字与所述参考文字之间关联关系的特征;
[0009]根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;
[0010]在文字发生错误的情况下,确定包含发生错误的文字的预设混淆集,从所述预设混淆集中确定目标文字,通过所述目标文字对发生错误的文字进行校对,其中,所述预设混淆集中包含相近文字。
[0011]可选地,所述根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误,包括:
[0012]针对每一文字,对每一文字的语义特征以及参考语义特征进行特征融合,得到第一融合特征,并对每一文字的语义特征以及关联特征进行特征融合,得到第二融合特征;
[0013]对各文字对应的参考语义特征、关联特征、第一融合特征以及第二融合特征进行特征拼接,根据拼接得到的特征,预测各文字是否发生错误。
[0014]可选地,所述根据拼接得到的特征,预测各文字是否发生错误,包括:
[0015]根据拼接得到的特征,计算各文字对应预设动作的第一概率分布,其中,所述预设动作包括文字复制动作和文字替换动作;
[0016]根据各文字对应的第一概率分布,预测各文字是否发生错误。
[0017]可选地,所述根据拼接得到的特征,计算各文字对应预设动作的第一概率分布,包括:
[0018]按照以下表达式计算各文字对应预设动作的第一概率分布:
[0019]P
θ
(y
t
|X,y
1:t
‑1)=softmax(W2ReLU(W1S
t
+b1)+b2)
[0020]其中,P
θ
表征第一概率分布,X为文字标识,y
t
为预设动作,y
1:t
‑1为所述目标句中位于文字X之前的每一文字所执行的动作,softmax()为逻辑回归函数,W2为第一预设权重矩阵,b2为第一预设偏置向量,ReLU()为激活函数,W1为第二预设权重矩阵,b1为第二预设偏置向量,S
t
为文字拼接得到的特征。
[0021]可选地,所述从所述预设混淆集中确定目标文字,包括:
[0022]根据所述预设混淆集中各文字对应的混淆概率,从所述预设混淆集中选择文字,将选择得到的文字作为目标文字,其中,所述预设混淆集包含各相近文字,所述各文字对应的混淆概率为:各文字被误编辑为所述发生错误的文字的概率。
[0023]可选地,所述根据所述预设混淆集中包含的各文字对应的混淆概率,从所述预设混淆集中选择文字,将选择得到的文字作为目标文字,包括:
[0024]确定所述预设混淆集中混淆概率最大的文字,将确定得到的文字作为目标文字。
[0025]可选地,所述针对所述目标句中每一文字,根据每一文字所在的上下文信息,提取所述各文字的语义特征;针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,得到每一文字的关联特征,根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;在文字发生错误的情况下,确定包含发生错误的文字的预设混淆集,从所述预设混淆集中确定目标文字均通过预先训练的文字校对模型实现;
[0026]所述文字校对模型的训练过程包括如下步骤:
[0027]获得样本句;
[0028]将所述样本句输入至预设的神经网络模型,以使所述神经网路模型提取所述样本句中每一样本文字的样本语义特征,并提取各文字的样本关联特征,并根据各样本文字的样本语义特征、各样本文字的参考样本文字的样本参考语义特征以及样本关联特征,预测各样本文字是否发生错误;
[0029]根据各样本文字的预测结果与真实结果之间的差异,调整所述神经网络模型的参数,直至满足预设的训练结束条件。
[0030]可选地,所述根据各样本文字的预测结果与真实结果之间的差异,调整所述神经网络模型的参数,包括:
[0031]根据各样本文字的预测结果与真实结果之间的差异,计算各样本文字的第一预设类型的第一损失值和第二预设类型的第二损失值,其中,所述第一预设类型为:最大似然类型,所述第二预设类型为:强化学习类型;
[0032]根据所述第一损失值和第二损失值,按照预设的控制参数,计算各样本文字的总损失值;
[0033]根据所述总损失值,调整所述神经网络模型的参数。
[0034]可选地,所述第二损失值按照如下步骤计算得到:
[0035]根据各样本文字的预测结果与真实结果,确定所述样本句的正确率和召回率;
[0036]根据所述样本句的正确率和召回率,计算所述样本句的奖励系数;
[0037]根据各样本文字的预测结果与真实结果之间的差异、所述样本句的奖励系数,计
算所述各样本文字的第二损失值。
[0038]可选地,所述根据各样本文字的预测结果与真实结果之间的差异,计算各样本文字的第一预设类型的第一损失值和第二预设类型的第二损失值,包括:
[0039]按照以下表达式计算第一损失值L
ml
和第二损失值L
rl

[0040][0041][0042]其中,t表示样本文字的标识,n表示样本文字的总数量,P
α
表征第一样本概率分布,为样本文字t的真实动作,Z为输入样本文字的标识,为样本句中位于样本文字t之前的样本文字的真实的动作,r()表示奖励函数,y
g
表示第一样本概率分布中每一样本文字的最大概率对应的动作的集合,y
s
表示第一样本概率分布中每一样本文字随机抽取的动作的集合。
[0043]第二方面,本专利技术实施例提供了一种中文校对装置,包括:
[0044]目标句获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文校对方法,其特征在于,包括:获得待校对的目标句;针对所述目标句中每一文字,根据每一文字所在的上下文信息,提取每一文字的语义特征;针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,得到每一文字的关联特征,其中,所述参考文字为:在所述目标句中与每一文字相邻的文字,所述每一文字的关联特征为:所述每一文字与所述参考文字之间关联关系的特征;根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;在文字发生错误的情况下,确定包含发生错误的文字的预设混淆集,从所述预设混淆集中确定目标文字,通过所述目标文字对发生错误的文字进行校对,其中,所述预设混淆集中包含相近文字。2.根据权利要求1所述的方法,其特征在于,所述根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误,包括:针对每一文字,对每一文字的语义特征以及参考语义特征进行特征融合,得到第一融合特征,并对每一文字的语义特征以及关联特征进行特征融合,得到第二融合特征;对各文字对应的参考语义特征、关联特征、第一融合特征以及第二融合特征进行特征拼接,根据拼接得到的特征,预测各文字是否发生错误。3.根据权利要求2所述的方法,其特征在于,所述根据拼接得到的特征,预测各文字是否发生错误,包括:根据拼接得到的特征,计算各文字对应预设动作的第一概率分布,其中,所述预设动作包括文字复制动作和文字替换动作;根据各文字对应的第一概率分布,预测各文字是否发生错误。4.根据权利要求3所述的方法,其特征在于,所述根据拼接得到的特征,计算各文字对应预设动作的第一概率分布,包括:按照以下表达式计算各文字对应预设动作的第一概率分布:P
θ
(y
t
|X,y
1:t
‑1)=softmax(W2ReLU(W1S
t
+b1)+b2)其中,P
θ
表征第一概率分布,X为文字标识,y
t
为预设动作,y
1:t
‑1为所述目标句中位于文字X之前的每一文字所执行的动作,softmax()为逻辑回归函数,W2为第一预设权重矩阵,b2为第一预设偏置向量,ReLU()为激活函数,W1为第二预设权重矩阵,b1为第二预设偏置向量,S
t
为文字拼接得到的特征。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述从所述预设混淆集中确定目标文字,包括:根据所述预设混淆集中每一文字对应的混淆概率,从所述预设混淆集中选择文字,将选择得到的文字作为目标文字,其中,所述预设混淆集包含各相近文字,所述每一文字对应的混淆概率为:每一文字被误编辑为所述发生错误的文字的概率。6.根据权利要求5所述的方法,其特征在于,所述根据所述预设混淆集中每一文字对应的混淆概率,从所述预设混淆集中选择文字,将选择得到的文字作为目标文字,包括:确定所述预设混淆集中混淆概率最大的文字,将确定得到的文字作为目标文字。
7.根据权利要求1

4中任一项所述的方法,其特征在于,所述针对所述目标句中每一文字,根据每一文字所在的上下文信息,提取每一文字的语义特征;针对每一文字,根据每一文字的语义特征以及参考文字的参考语义特征,确定每一文字的关联特征,根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征,预测各文字是否发生错误;在文字发生错误的情况下,确定包含发生错误的文字的预设混淆集,从所述预设混淆集中确定目标文字,各...

【专利技术属性】
技术研发人员:张贺丰李阜阳王浪
申请(专利权)人:北京金山办公软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1