一种文本纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40472303 阅读:14 留言:0更新日期:2024-02-26 19:09
本发明专利技术涉及一种文本纠错方法、装置、电子设备及存储介质,该方法包括:构建重点校对词库,重点校对词库包括若干个重点词条以及用于校对文本的词条最大错误值;将待处理文本输入到重点校对词库中进行校对处理,校对处理完毕后输出纠错结果。本发明专利技术与现有技术相比,其显著优点是:解决了传统文本分段需要根据语义或分词词库进行切分,受限于语义或词库不完善,存在分词误差的问题;优化了文本的纠错条件,能够准确识别出文本中的多字、漏字、顺序错乱的错误;具有灵活度高、可控性与可解释性强、纠错准确率高,词库维护成本与计算资源成本较低,实现低成本高能效的效果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是一种文本纠错方法、装置、电子设备及存储介质


技术介绍

1、文本纠错的目的是检测和纠正文本中的语法、拼写和标点错误,以使其更加易于阅读和理解。尤其在编辑新闻文本时,由于不同的输入法以及输入软件的操作导致打字词条出现同音字、近义词等情况,例如输入“部署”可能会出现“布署”、“部属”等情况,为保证新闻文稿的准确性,需要预先进行校正、修改。

2、传统的文本纠错是通过校对词库全匹配检索的方式来检测错误,而智媒体时代的数据量爆发式增长,错误类型庞杂、信息真假难辨,高精准的全匹配检索需要依赖数据量庞大、知识丰富的校对词库作为重要支撑,丰富的校对词库需要巨大的人力成本和时间成本来长期维护,无法达到一劳永逸的效果,反而变相加大人工审核难度,难以达到技术高效赋能业务的效果。

3、业界也存在使用“ai+人工”的形式管控文稿安全,但只适用于传统的基础审核,比如错别字纠错、词条润色等,基础审核的文稿可修改度较高、纠错结果不唯一、容错性较强;面对重点/专题性文本审核则存在安全风险,由于ai模型的参数量庞大,推理过程复杂,导致本文档来自技高网...

【技术保护点】

1.一种文本纠错方法,其特征在于:所述方法包括:

2.根据权利要求1所述的文本纠错方法,其特征在于:在所述重点校对词库设立若干个分桶区间,每个分桶区间对应不同词条长度区间,并为每个分桶区间预置不同的词条最大错误值,将若干个所述重点词条按照词条长度分别存入对应的分桶区间。

3.根据权利要求2所述的文本纠错方法,其特征在于:所述校对处理流程为:

4.根据权利要求3所述的文本纠错方法,其特征在于:所述将待处理文本输入到重点校对词库中进行校对处理,校对处理完毕后输出纠错结果之后,还包括:

5.根据权利要求4所述的文本纠错方法,其特征在于:所述复验处...

【技术特征摘要】

1.一种文本纠错方法,其特征在于:所述方法包括:

2.根据权利要求1所述的文本纠错方法,其特征在于:在所述重点校对词库设立若干个分桶区间,每个分桶区间对应不同词条长度区间,并为每个分桶区间预置不同的词条最大错误值,将若干个所述重点词条按照词条长度分别存入对应的分桶区间。

3.根据权利要求2所述的文本纠错方法,其特征在于:所述校对处理流程为:

4.根据权利要求3所述的文本纠错方法,其特征在于:所述将待处理文本输入到重点校对词库中进行校对处理,校对处理完毕后输出纠错结果之后,还包括:

5.根据权利要求4所述的文本纠错方法,其特征在于:所述复验处理流程为:根据所述待处理文本、每个所保留第一差集对应的重点词条,生成其对应的拼...

【专利技术属性】
技术研发人员:麦淼李梓华王梦环罗小龙
申请(专利权)人:广东南方智媒科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1