一种基于多感知数据的交互式文本识别方法和系统技术方案

技术编号:26223338 阅读:28 留言:0更新日期:2020-11-04 10:55
本发明专利技术提供一种基于多感知数据的交互式文本识别方法和系统,所述基于多感知数据的交互式文本识别方法包括:步骤S1,对待识别图像进行拍照识别;步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。本发明专利技术引入了音频信息和触觉信息以增强场景适应性,提升了识别正确率,在此基础上,还通过对下一步操作的效果进行成本预测估算,以便实现智能排序和推送操作选择,确保达到以与用户相适的操作以获得更高的识别率,并有效地提升了产品的人性化设计程度和适应性能。

【技术实现步骤摘要】
一种基于多感知数据的交互式文本识别方法和系统
本专利技术涉及一种文本识别方法,尤其涉及一种基于多感知数据的交互式文本识别方法,并设计采用了该基于多感知数据的交互式文本识别方法的交互式文本识别系统。
技术介绍
各种单据、发票、证件和表格的文本识别在今天是比较普遍的场景,因为各种处理流程都是建立在提取的数据的基础上。比如医保理赔需要把患者的病历和医院发票等图像上传,并识别出其中的相关信息进行理赔处理;财务报销时也要将各种差旅、住宿和餐饮等发票拍照上传处理;其它应用场景包括身份信息的识别和征信数据的提取等等。但由于各种单据、证件的大小、规格、样式和材质都不同,以及上面的字体、颜色以及文本与表格线、印章的重叠等诸多情形,这些都严重影响了文字识别技术(OCR)的效率和正确率。目前的解决方案包括预设模板的方法,即对不同的单据设置相应的模板来提升识别率;或者基于单据的颜色信息来改进识别率,但这些方法都有其局限性,并没有被广泛接受和在实际中运用起来。目前已有方案的主要问题在于,面对大小、规格、样式(包括字体、文字颜色、印章等差异)和材质都不同单据,缺乏系统的解决办法。所作的努力只是从某个方面进行局部的改进。比如预设模板的方法,需要识别的各种场景模板何其多,能通过预设覆盖多少种?而且,即使预设了对应的模板,也并不能保证识别率。因为还有获取图像的质量问题,以及打印时文字的偏移问题等,这些都在一定程度上削弱了预设模板的效果,因为要识别的文字可能并不在模板预设的位置。而基于单据颜色改进识别率的方法在实际应用中有很大局限性,因为单据的颜色不是由识别服务的提供方决定的,而是原来的使用单位印制的。再加上单据图像获取(尤其是手机拍照方式)中光照等因素影响,利用颜色信息对OCR的改进也是非常有限的。包括近期一些利用深度学习方法,也只是有限的改进了识别率。深度学习对识别正确率提升总是有瓶颈的,并且学习到一定程度就发现新增学习样例对算法的改进作用越来越小甚至没有改进。各种票据的多样性和现实中影响图像质量复杂性导致其不可能彻底解决识别问题,这也是在实验室或者人工智能大赛中表现亮眼的算法,在实际落地时常常遇到的窘境。因此,在实际作为商业服务的单据OCR识别中,不得不在后期投入大量人力进行质检校对。即便因此耗费大量人工成本,也不能保证识别的正确率完全达到期待的水平。因为人工校对受人为因素的影响太多,比如经验、专注和认真程度等。这种前期完全依赖AI(ArtificialIntelligence)技术,后期再投人力进行质检纠错的方法,也与实际的需求存在差距。
技术实现思路
本专利技术所要解决的技术问题是需要提供一种能够结合视觉信息、听觉信息和触觉信息进行辨识和交互,并实现智能排序和推送操作选择的交互式文本识别方法,进而提高识别正确率和处理效率,并提升产品的人性化设计程度和适应性能。在此基础上,还进一步提供采用了该交互式文本识别方法的交互式文本识别系统。对此,本专利技术提供一种基于多感知数据的交互式文本识别方法,包括以下步骤:步骤S1,对待识别图像进行拍照识别;步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。本专利技术的进一步改进在于,所述步骤S3包括以下子步骤中的任意一项或几项:步骤S301,对候选字选择进行成本预测估算,得到候选字成本估值COST1;步骤S302,对语音辅助进行成本预测估算,得到语音辅助成本估值COST2;步骤S303,对手写输入进行成本预测估算,得到手写输入成本估值COST3;步骤S304,对拼音输入进行成本预测估算,得到拼音输入成本估值COST4。本专利技术的进一步改进在于,所述步骤S301中,通过公式对候选字选择进行成本预测估算,其中,α1和α2为加权系数,α1∈(0,1),α2∈(0,1),且α1+α2=1;CFi为对应OCR识别算法候选中第i个候选的可信度;m为候选字的候选个数;t1为本次候选字选择操作所需估算时间,f(t1)为时间t1的归一化函数;PH1为选择候选字操作获得正确结果的历史数据概率;PS1为选择候选字操作的历史数据概率;n为大于1的幂数。本专利技术的进一步改进在于,所述步骤S302中,通过公式COST2=(α3f(t2)+α4f(N))(1-PH2)(1-PS2)n对语音辅助进行成本预测估算,其中,α3和α4为加权系数,α3∈(0,1),α4∈(0,1),且α3+α4=1;t2为本次语音辅助选择操作所需估算时间,f(t2)为时间t2的归一化函数;N为前端检测的当前环境噪声水平,f(N)为噪声N的归一化函数;PH2为选择语音辅助操作获得正确结果的历史数据概率;PS2为选择语音辅助操作的历史数据概率;n为大于1的幂数。本专利技术的进一步改进在于,所述步骤S303中,通过公式对手写输入进行成本预测估算,其中,α5为加权系数,α5∈(0,1);bi为第i个候选字的笔画数;m为候选字的候选个数;f(b)为对笔画数的归一化函数,PH3为选择手写输入操作获得正确结果的历史数据概率;PS3为选择手写输入操作的历史数据概率;n为大于1的幂数。本专利技术的进一步改进在于,所述步骤S304中,通过公式COST4=α6f(t4)(1-PH4)(1-PS4)n对拼音输入进行成本预测估算,其中,α6为加权系数,α6∈(0,1);t4为本次拼音选择操作所需估算时间,f(t4)为时间t4的归一化函数;PH4为选择拼音输入操作获得正确结果的历史数据概率;PS4为选择拼音输入操作的历史数据概率;n为大于1的幂数。本专利技术的进一步改进在于,所述步骤S4中,根据成本预测估算结果,选取最小的成本Cmin=Min(COST1,COST2,COST3,COST4)作为下一步操作的选择,Min()指的是取最小值操作。本专利技术的进一步改进在于,所述步骤S4中,在选择了下一步操作之后,将选择的操作返回至历史数据库中,并执行选择操作,然后对当前操作得到的结果进行二次确认,若确认正确则结束,否则返回选取新的下一步操作;其中,确认的结果和相关操作数据也写入历史数据库中。本专利技术的进一步改进在于,所述步骤S4中,如果最小的成本Cmin=候选字成本估值COST1,则返回执行步骤S2;如果最小的成本Cmin=语音辅助成本估值COST2,则开启前端麦克风采集所选择的待识别字的音频信号,并进行语音识别,并先推荐视觉信息识别候选集合和语音信息识别候选集合之间的交集用于确认;如果最小的成本Cmin=手写输入成本估值COST3则执行手写输入后返回步骤S2;如果最小的成本Cmin=拼音输入成本估值COST4则执行拼音输入后返回步骤S2。本专利技术还提供一种基于多感知数据的交互式文本识别系统,采用了如上所述的基于多感知数据的交互式文本识别方法,并包括:图像识别模块,用于对待识别图像进行拍照识别;首次确认本文档来自技高网
...

【技术保护点】
1.一种基于多感知数据的交互式文本识别方法,其特征在于,包括以下步骤:/n步骤S1,对待识别图像进行拍照识别;/n步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;/n步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;/n步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。/n

【技术特征摘要】
1.一种基于多感知数据的交互式文本识别方法,其特征在于,包括以下步骤:
步骤S1,对待识别图像进行拍照识别;
步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;
步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;
步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。


2.根据权利要求1所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S3包括以下子步骤中的任意一项或几项:
步骤S301,对候选字选择进行成本预测估算,得到候选字成本估值COST1;
步骤S302,对语音辅助进行成本预测估算,得到语音辅助成本估值COST2;
步骤S303,对手写输入进行成本预测估算,得到手写输入成本估值COST3;
步骤S304,对拼音输入进行成本预测估算,得到拼音输入成本估值COST4。


3.根据权利要求2所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S301中,通过公式对候选字选择进行成本预测估算,其中,α1和α2为加权系数,α1∈(0,1),α2∈(0,1),且α1+α2=1;CFi为对应OCR识别算法候选中第i个候选的可信度;m为候选字的候选个数;t1为本次候选字选择操作所需估算时间,f(t1)为时间t1的归一化函数;PH1为选择候选字操作获得正确结果的历史数据概率;PS1为选择候选字操作的历史数据概率;n为大于1的幂数。


4.根据权利要求2所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S302中,通过公式COST2=(α3f(t2)+α4f(N))(1-PH2)(1-PS2)n对语音辅助进行成本预测估算,其中,α3和α4为加权系数,α3∈(0,1),α4∈(0,1),且α3+α4=1;t2为本次语音辅助选择操作所需时间,f(t2)为时间t2的归一化函数;N为前端检测的当前环境噪声水平,f(N)为噪声N的归一化函数;PH2为选择语音辅助操作获得正确结果的历史数据概率;PS2为选择语音辅助操作的历史数据概率;n为大于1的幂数。


5.根据权利要求2所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S303中,通过公式对手写输入进行成本预测估算,其中,α5为加权系数,α5∈(0,1);bi为第i个候选字的笔画数;m为候选字的候选个数;f(b)为对笔画数...

【专利技术属性】
技术研发人员:万享罗登樊向东张玉志
申请(专利权)人:深圳市点通数据有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1