一种中文校对方法、装置及电子设备制造方法及图纸

技术编号：36643598 阅读：16 留言：0更新日期：2023-02-18 13:01

本发明专利技术实施例提供了一种中文校对方法、装置及电子设备，应用于计算机技术领域；上述方法包括：获得待校对的目标句；针对目标句中每一文字，根据每一文字所在的上下文信息，提取各文字的语义特征；针对每一文字，根据每一文字的语义特征以及参考文字的参考语义特征，得到每一文字的关联特征；根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征，预测各文字是否发生错误；在文字发生错误的情况下，通过目标文字对发生错误的文字进行校对。应用本实施例提供的方案进行中文校对时，提高了文字校对的准确度。提高了文字校对的准确度。提高了文字校对的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文校对方法、装置及电子设备

[0001]本专利技术涉及计算机
，特别是涉及一种中文校对方法、装置及电子设备。

技术介绍

[0002]随着网络的发展，文字编辑已成为线上办公的重要组成部分。由于中文中存在大量的同音、近音和形近字，十分容易形成错误，因此，对文档的校对也十分重要。
[0003]现有技术中，通常采用人工校对方式对文档进行校对，如由工作人员逐字进行校对。然而，采用这种校对方式导致文字校对的准确度较低。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种中文校对方法、装置及电子设备，用以提高文字校对的准确度的问题。具体技术方案如下：
[0005]第一方面，本专利技术实施例提供了一种中文校对方法，包括：
[0006]获得待校对的目标句；
[0007]针对所述目标句中每一文字，根据每一文字所在的上下文信息，提取每一文字的语义特征；
[0008]针对每一文字，根据每一文字的语义特征以及参考文字的参考语义特征，得到每一文字的关联特征，其中，所述参考文字为：在所述目标句中与每一文字相邻的文字，所述每一文字的关联特征为：所述每一文字与所述参考文字之间关联关系的特征；
[0009]根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征，预测各文字是否发生错误；
[0010]在文字发生错误的情况下，确定包含发生错误的文字的预设混淆集，从所述预设混淆集中确定目标文字，通过所述目标文字对发生错误的文字进行校对，其中，所述预设混淆...

【技术保护点】

【技术特征摘要】
1.一种中文校对方法，其特征在于，包括：获得待校对的目标句；针对所述目标句中每一文字，根据每一文字所在的上下文信息，提取每一文字的语义特征；针对每一文字，根据每一文字的语义特征以及参考文字的参考语义特征，得到每一文字的关联特征，其中，所述参考文字为：在所述目标句中与每一文字相邻的文字，所述每一文字的关联特征为：所述每一文字与所述参考文字之间关联关系的特征；根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征，预测各文字是否发生错误；在文字发生错误的情况下，确定包含发生错误的文字的预设混淆集，从所述预设混淆集中确定目标文字，通过所述目标文字对发生错误的文字进行校对，其中，所述预设混淆集中包含相近文字。2.根据权利要求1所述的方法，其特征在于，所述根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征，预测各文字是否发生错误，包括：针对每一文字，对每一文字的语义特征以及参考语义特征进行特征融合，得到第一融合特征，并对每一文字的语义特征以及关联特征进行特征融合，得到第二融合特征；对各文字对应的参考语义特征、关联特征、第一融合特征以及第二融合特征进行特征拼接，根据拼接得到的特征，预测各文字是否发生错误。3.根据权利要求2所述的方法，其特征在于，所述根据拼接得到的特征，预测各文字是否发生错误，包括：根据拼接得到的特征，计算各文字对应预设动作的第一概率分布，其中，所述预设动作包括文字复制动作和文字替换动作；根据各文字对应的第一概率分布，预测各文字是否发生错误。4.根据权利要求3所述的方法，其特征在于，所述根据拼接得到的特征，计算各文字对应预设动作的第一概率分布，包括：按照以下表达式计算各文字对应预设动作的第一概率分布：P
θ
(y
t
|X,y
1：t
‑1)＝softmax(W2ReLU(W1S
t
+b1)+b2)其中，P
θ
表征第一概率分布，X为文字标识，y
t
为预设动作，y
1：t
‑1为所述目标句中位于文字X之前的每一文字所执行的动作，softmax()为逻辑回归函数，W2为第一预设权重矩阵，b2为第一预设偏置向量，ReLU()为激活函数，W1为第二预设权重矩阵，b1为第二预设偏置向量，S
t
为文字拼接得到的特征。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述从所述预设混淆集中确定目标文字，包括：根据所述预设混淆集中每一文字对应的混淆概率，从所述预设混淆集中选择文字，将选择得到的文字作为目标文字，其中，所述预设混淆集包含各相近文字，所述每一文字对应的混淆概率为：每一文字被误编辑为所述发生错误的文字的概率。6.根据权利要求5所述的方法，其特征在于，所述根据所述预设混淆集中每一文字对应的混淆概率，从所述预设混淆集中选择文字，将选择得到的文字作为目标文字，包括：确定所述预设混淆集中混淆概率最大的文字，将确定得到的文字作为目标文字。
7.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述针对所述目标句中每一文字，根据每一文字所在的上下文信息，提取每一文字的语义特征；针对每一文字，根据每一文字的语义特征以及参考文字的参考语义特征，确定每一文字的关联特征，根据各文字的语义特征、各文字对应的参考语义特征以及各文字的关联特征，预测各文字是否发生错误；在文字发生错误的情况下，确定包含发生错误的文字的预设混淆集，从所述预设混淆集中确定目标文字，各...

【专利技术属性】
技术研发人员：张贺丰，李阜阳，王浪，
申请(专利权)人：北京金山办公软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人