一种基于多感知数据的交互式文本识别方法和系统技术方案

技术编号：26223338 阅读：28 留言：0更新日期：2020-11-04 10:55

本发明专利技术提供一种基于多感知数据的交互式文本识别方法和系统，所述基于多感知数据的交互式文本识别方法包括：步骤S1，对待识别图像进行拍照识别；步骤S2，将后台识别好的结果发送至前端进行显示，并通过前端对识别结果进行确认和纠错；步骤S3，结合历史数据统计对下一步操作的效果进行成本预测估算；步骤S4，根据成本预测估算结果选择下一步操作，并对当前结果进行二次确认。本发明专利技术引入了音频信息和触觉信息以增强场景适应性，提升了识别正确率，在此基础上，还通过对下一步操作的效果进行成本预测估算，以便实现智能排序和推送操作选择，确保达到以与用户相适的操作以获得更高的识别率，并有效地提升了产品的人性化设计程度和适应性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多感知数据的交互式文本识别方法和系统
本专利技术涉及一种文本识别方法，尤其涉及一种基于多感知数据的交互式文本识别方法，并设计采用了该基于多感知数据的交互式文本识别方法的交互式文本识别系统。
技术介绍
各种单据、发票、证件和表格的文本识别在今天是比较普遍的场景，因为各种处理流程都是建立在提取的数据的基础上。比如医保理赔需要把患者的病历和医院发票等图像上传，并识别出其中的相关信息进行理赔处理；财务报销时也要将各种差旅、住宿和餐饮等发票拍照上传处理；其它应用场景包括身份信息的识别和征信数据的提取等等。但由于各种单据、证件的大小、规格、样式和材质都不同，以及上面的字体、颜色以及文本与表格线、印章的重叠等诸多情形，这些都严重影响了文字识别技术(OCR)的效率和正确率。目前的解决方案包括预设模板的方法，即对不同的单据设置相应的模板来提升识别率；或者基于单据的颜色信息来改进识别率，但这些方法都有其局限性，并没有被广泛接受和在实际中运用起来。目前已有方案的主要问题在于，面对大小、规格、样式(包括字体、文字颜色、印章等差异)和材质都不同单据，缺乏系统的解决办法。所作的努力只是从某个方面进行局部的改进。比如预设模板的方法，需要识别的各种场景模板何其多，能通过预设覆盖多少种？而且，即使预设了对应的模板，也并不能保证识别率。因为还有获取图像的质量问题，以及打印时文字的偏移问题等，这些都在一定程度上削弱了预设模板的效果，因为要识别的文字可能并不在模板预设的位置。而基于单据颜色改进识别率的方法在实际应用中有很大局限性，因...

【技术保护点】
1.一种基于多感知数据的交互式文本识别方法，其特征在于，包括以下步骤：/n步骤S1，对待识别图像进行拍照识别；/n步骤S2，将后台识别好的结果发送至前端进行显示，并通过前端对识别结果进行确认和纠错；/n步骤S3，结合历史数据统计对下一步操作的效果进行成本预测估算；/n步骤S4，根据成本预测估算结果选择下一步操作，并对当前结果进行二次确认。/n

【技术特征摘要】
1.一种基于多感知数据的交互式文本识别方法，其特征在于，包括以下步骤：
步骤S1，对待识别图像进行拍照识别；
步骤S2，将后台识别好的结果发送至前端进行显示，并通过前端对识别结果进行确认和纠错；
步骤S3，结合历史数据统计对下一步操作的效果进行成本预测估算；
步骤S4，根据成本预测估算结果选择下一步操作，并对当前结果进行二次确认。

2.根据权利要求1所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S3包括以下子步骤中的任意一项或几项：
步骤S301，对候选字选择进行成本预测估算，得到候选字成本估值COST1；
步骤S302，对语音辅助进行成本预测估算，得到语音辅助成本估值COST2；
步骤S303，对手写输入进行成本预测估算，得到手写输入成本估值COST3；
步骤S304，对拼音输入进行成本预测估算，得到拼音输入成本估值COST4。

3.根据权利要求2所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S301中，通过公式对候选字选择进行成本预测估算，其中，α1和α2为加权系数，α1∈(0,1)，α2∈(0,1)，且α1+α2＝1；CFi为对应OCR识别算法候选中第i个候选的可信度；m为候选字的候选个数；t1为本次候选字选择操作所需估算时间，f(t1)为时间t1的归一化函数；PH1为选择候选字操作获得正确结果的历史数据概率；PS1为选择候选字操作的历史数据概率；n为大于1的幂数。

4.根据权利要求2所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S302中，通过公式COST2＝(α3f(t2)+α4f(N))(1-PH2)(1-PS2)n对语音辅助进行成本预测估算，其中，α3和α4为加权系数,α3∈(0,1)，α4∈(0,1)，且α3+α4＝1；t2为本次语音辅助选择操作所需时间，f(t2)为时间t2的归一化函数；N为前端检测的当前环境噪声水平，f(N)为噪声N的归一化函数；PH2为选择语音辅助操作获得正确结果的历史数据概率；PS2为选择语音辅助操作的历史数据概率；n为大于1的幂数。

5.根据权利要求2所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S303中，通过公式对手写输入进行成本预测估算，其中，α5为加权系数，α5∈(0,1)；bi为第i个候选字的笔画数；m为候选字的候选个数；f(b)为对笔画数...

【专利技术属性】
技术研发人员：万享，罗登，樊向东，张玉志，
申请(专利权)人：深圳市点通数据有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人