识别结果纠错方法、装置、计算机设备及介质制造方法及图纸

技术编号:41451815 阅读:22 留言:0更新日期:2024-05-28 20:40
本发明专利技术涉及文本识别技术领域,公开了识别结果纠错方法、装置、计算机设备及介质,该方法包括:对待识别图像进行文本识别,得到其中包含的文本信息以及所述文本信息中各字符的置信度,并确定所述置信度小于置信度阈值的字符为错误字符;确定所述文本信息中包含所述错误字符的单位语句为错误语句,将所述错误语句输入至大语言模型中,得到所述大语言模型输出的纠正语句;其中,所述大语言模型为预先基于若干错误文本及正确文本的文本对训练得到的;基于所述错误语句及所述纠正语句分析得到相应的正确语句,完成对文本识别所得结果的纠错。从而有效提高文本识别中的纠错准确率。

【技术实现步骤摘要】

本专利技术涉及文本识别,具体涉及识别结果纠错方法、装置、计算机设备及介质


技术介绍

1、在实现文本识别时,通常识别结果可能存在一定的错误,包括漏字、错字、多字等;如何实现对识别结果的纠错则成为提高文本识别准确率的重要一环。

2、但是目前的纠错方法通常只关注单个词或短语的错误,而忽略了整个句子或段落的语境,这导致纠错结果可能与上下文不匹配,产生语义上的不连贯,纠错准确率较低。


技术实现思路

1、有鉴于此,本专利技术提供了一种识别结果纠错方法、装置、计算机设备及介质,以解决纠错准确率较低的问题。

2、第一方面,本专利技术提供了一种识别结果纠错方法,该方法包括:

3、对待识别图像进行文本识别,得到其中包含的文本信息以及所述文本信息中各字符的置信度,并确定所述置信度小于置信度阈值的字符为错误字符;

4、确定所述文本信息中包含所述错误字符的单位语句为错误语句,将所述错误语句输入至大语言模型中,得到所述大语言模型输出的纠正语句;其中,所述大语言模型为预先基于若干错误文本及本文档来自技高网...

【技术保护点】

1.一种识别结果纠错方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于所述错误语句及所述纠正语句分析得到相应的正确语句,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述错误语句及所述纠正语句分析得到相应的正确语句之前,还包括:

4.根据权利要求3所述的方法,其特征在于,将所述错误语句输入至大语言模型中,包括:

5.根据权利要求4所述的方法,其特征在于,基于若干错误文本及正确文本的文本对训练所述大语言模型,包括:

6.根据权利要求5所述的方法,其特征在于,训练所述大语言模型之前,还包括:...

【技术特征摘要】

1.一种识别结果纠错方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于所述错误语句及所述纠正语句分析得到相应的正确语句,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述错误语句及所述纠正语句分析得到相应的正确语句之前,还包括:

4.根据权利要求3所述的方法,其特征在于,将所述错误语句输入至大语言模型中,包括:

5.根据权利要求4所述的方法,其特征在于,基于若干错误文本及正确文本的文本对训练所述大...

【专利技术属性】
技术研发人员:龚克刘青松王妍董雪莹梁家恩
申请(专利权)人:云知声信阳数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1