【技术实现步骤摘要】
文本校对方法、装置、计算机可读存储介质及电子设备
本公开涉及计算机
,具体地,涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。
技术介绍
在文本处理中,录入、编辑和排版都已有相当成熟的计算机应用系统,但文本校对这一中间环节尚停留主要依靠人工处理阶段,并成为新闻、出版、办公室文印等领域制约整个行业发展,影响工作效率的瓶颈。人工进行文本校对,不但费时费力,而且难以保证校正的准确率。基于上述问题,现阶段主要采用N-gram模型对文本中存在的错误进行检测并给出纠错建议,但该方法仅考虑了前后词的搭配问题,文本校正的准确率较低。
技术实现思路
为了克服相关技术中存在的问题,本公开提供一种文本校对方法、装置、计算机可读存储介质及电子设备。为了实现上述目的,根据本公开实施例的第一方面,提供一种文本校对方法,所述方法包括:确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预 ...
【技术保护点】
1.一种文本校对方法,其特征在于,所述方法包括:/n确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;/n针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;/n针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;/n至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。/n
【技术特征摘要】
1.一种文本校对方法,其特征在于,所述方法包括:
确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;
针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;
针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;
至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。
2.根据权利要求1所述的方法,其特征在于,所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
至少将所述第一共现频次、所述第二共现频次以及所述语义特征输入至预设的xgboost模型中,以判定所述纠错词是否正确。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述错误词和所述纠错词中属于单字的词标记为1,并将所述错误词和所述纠错词中属于多字的词标记为0;
所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
根据所述错误词的标记、所述纠错词的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取所述错误词与所述纠错词的语义特征,包括:
将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;
通过Bert模型,分别获取所述初始句子对应的第一向量A=(A1,A2,…,Am)、所述纠错句子对应的第二向量B=(B1,B2,…,Bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,Ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,Bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;
将所述第二向量中各第二得分的平均值与所述第一向量中各第一得分的平均值的第一差值确定为所述错误词与所述纠错词的语义特征。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取所述错误词与所述纠错词的语义特征,包括:
将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;
通过Bert模型,分别获取所述初始句子对应的第一向量A=(A1,A2,…,Am)、所述纠错句子对应的第二向量B=(B1,B2,…,Bn),其中,m、n分别为所述初始句子中所包含...
【专利技术属性】
技术研发人员:苏海波,苏萌,刘译璟,姚震,檀玉飞,黄伟,
申请(专利权)人:北京百分点信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。