文本校对方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:23605260 阅读:18 留言:0更新日期:2020-03-28 06:12
本公开涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。方法包括:确定待校对文本中各句子的纠错信息,纠错信息包括错误词和其对应的至少一个纠错词;针对各错误词,分别确定错误词与其前、后词在预设语料库中的第一共现频次、第二共现频次;针对错误词对应的各纠错词,获取语义特征;至少根据第一共现频次、第二共现频次及语义特征,判定纠错词是否正确。判定纠错词的正确性,可提升文本校对准确率。对纠错词的正确性进行判定时,综合考虑了前后词的搭配及上下文语义特征,可保证纠错词的正确性判定的精度,从而进一步提升文本校对准确率。此外,使得校对工作智能化、自动化,减轻人工校对的压力,提升工作效率,降低人工成本。

Text proofreading method, device, computer readable storage medium and electronic equipment

【技术实现步骤摘要】
文本校对方法、装置、计算机可读存储介质及电子设备
本公开涉及计算机
,具体地,涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。
技术介绍
在文本处理中,录入、编辑和排版都已有相当成熟的计算机应用系统,但文本校对这一中间环节尚停留主要依靠人工处理阶段,并成为新闻、出版、办公室文印等领域制约整个行业发展,影响工作效率的瓶颈。人工进行文本校对,不但费时费力,而且难以保证校正的准确率。基于上述问题,现阶段主要采用N-gram模型对文本中存在的错误进行检测并给出纠错建议,但该方法仅考虑了前后词的搭配问题,文本校正的准确率较低。
技术实现思路
为了克服相关技术中存在的问题,本公开提供一种文本校对方法、装置、计算机可读存储介质及电子设备。为了实现上述目的,根据本公开实施例的第一方面,提供一种文本校对方法,所述方法包括:确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。可选地,所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:至少将所述第一共现频次、所述第二共现频次以及所述语义特征输入至预设的xgboost模型中,以判定所述纠错词是否正确。可选地,所述方法还包括:将所述错误词和所述纠错词中属于单字的词标记为1,并将所述错误词和所述纠错词中属于多字的词标记为0;所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:根据所述错误词的标记、所述纠错词的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。可选地,所述获取所述错误词与所述纠错词的语义特征,包括:将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;通过Bert模型,分别获取所述初始句子对应的第一向量A=(A1,A2,…,Am)、所述纠错句子对应的第二向量B=(B1,B2,…,Bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,Ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,Bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;将所述第二向量中各第二得分的平均值与所述第一向量中各第一得分的平均值的第一差值确定为所述错误词与所述纠错词的语义特征。可选地,所述获取所述错误词与所述纠错词的语义特征,包括:将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;通过Bert模型,分别获取所述初始句子对应的第一向量A=(A1,A2,…,Am)、所述纠错句子对应的第二向量B=(B1,B2,…,Bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,Ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,Bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;依次通过多个预设变换函数中的每个所述预设变换函数,分别对所述第一向量、所述第二向量进行变换,得到所述第一向量对应的多个第三向量以及所述第二向量对应的多个第四向量;针对每个所述预设变换函数变换得到的第三向量、第四向量,分别计算所述第三向量中各第三得分的平均值与第四向量中各第四得分的平均值的第二差值;将多个所述第二差值确定为所述错误词与所述纠错词的语义特征。可选地,所述方法还包括:将多个所述第二差值中的最大值标记为1,并将多个所述第二差值中、除所述最大值外的第二差值标记为0;所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:根据所述第二差值的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。可选地,在所述确定待校对文本中各句子的纠错信息的步骤之前,所述方法还包括:对所述待校对文本进行预处理,得到新的待校对文本;所述确定待校对文本中各句子的纠错信息,包括:确定所述新的待校对文本中各句子的纠错信息。根据本公开实施例的第二方面,提供一种文本校对装置,所述装置包括:第一确定模块,用于确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;第二确定模块,用于针对所述第一确定模块确定出的每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;获取模块,用于针对所述第一确定模块确定出的所述错误词对应的每个所述纠错词,获取所述纠错词在相应句子中的语义特征;判定模块,用于至少根据所述第二确定模块确定出的所述第一共现频次、所述第二共现频次以及所述获取模块获取到的所述语义特征,判定所述纠错词是否正确。根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的所述方法的步骤。在上述技术方案中,首先确定待校对文本中各句子中存在的错误词和各错误词对应的至少一个纠错词;然后,可以针对每个错误词,分别确定该错误词与其前词、后词的第一共现频次、第二共现频次,同时,针对该错误词对应的每个纠错词,获取相应的语义特征;最后,至少根据上述第一共现频次、上述第二共现频次以及上述语义特征,对纠错词的正确性进行判定。在得到错误词和相应的纠错词后,进一步对纠错词的正确性进行判定,从而可以提升文本校对的准确率。并且,在对纠错词的正确性进行判定时,不但考虑到了前后词的搭配问题,而且结合了词的上下文语义特征,由此,可以保证纠错词的正确性判定的精度,从而进一步提升了文本校对的准确率。此外,上述文本校对方法使得校对工作智能化、自动化,减轻了人工校对的压力,提升了工作效率,降低了人工成本。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:...

【技术保护点】
1.一种文本校对方法,其特征在于,所述方法包括:/n确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;/n针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;/n针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;/n至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。/n

【技术特征摘要】
1.一种文本校对方法,其特征在于,所述方法包括:
确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;
针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;
针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;
至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。


2.根据权利要求1所述的方法,其特征在于,所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
至少将所述第一共现频次、所述第二共现频次以及所述语义特征输入至预设的xgboost模型中,以判定所述纠错词是否正确。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述错误词和所述纠错词中属于单字的词标记为1,并将所述错误词和所述纠错词中属于多字的词标记为0;
所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
根据所述错误词的标记、所述纠错词的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。


4.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取所述错误词与所述纠错词的语义特征,包括:
将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;
通过Bert模型,分别获取所述初始句子对应的第一向量A=(A1,A2,…,Am)、所述纠错句子对应的第二向量B=(B1,B2,…,Bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,Ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,Bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;
将所述第二向量中各第二得分的平均值与所述第一向量中各第一得分的平均值的第一差值确定为所述错误词与所述纠错词的语义特征。


5.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取所述错误词与所述纠错词的语义特征,包括:
将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;
通过Bert模型,分别获取所述初始句子对应的第一向量A=(A1,A2,…,Am)、所述纠错句子对应的第二向量B=(B1,B2,…,Bn),其中,m、n分别为所述初始句子中所包含...

【专利技术属性】
技术研发人员:苏海波苏萌刘译璟姚震檀玉飞黄伟
申请(专利权)人:北京百分点信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1