一种读取表格、校对支付数据的方法、设备及存储介质技术

技术编号：38675691 阅读：13 留言：0更新日期：2023-09-02 22:51

本发明专利技术公开了一种读取表格、校对支付数据的方法、设备及存储介质，该方法包括：从属于便携式文档格式的文件中读取位于表格内的多排原始文本信息，表格中分布多行多列单元格，每排原始文本信息中具有至少一份字符串；识别位于同一行单元格的原始文本信息，作为目标文本信息；针对每排目标文本信息，依据字符串的分布规律校准字符串在列上所处的单元格；合并位于同一行及同一列单元格的字符串，得到位于同一行单元格的业务数据。本实施例直可以保证后续业务数据的准确性，保证业务的正常运行，避免或减缓字符串错位的情况，大大减少人工校正的操作，减少耗时，降低成本，在整体上高读取表格的效率。格的效率。格的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种读取表格、校对支付数据的方法、设备及存储介质

[0001]本专利技术涉及表格处理的
，尤其涉及一种读取表格、校对支付数据的方法、设备及存储介质。

技术介绍

[0002]在多种业务中，往往会使用表格记录各数据，例如，账单信息、报名人员信息、项目信息、零件信息，等等，便于统计分析。
[0003]这些表格多记录在PDF(Portable Document Format，便携式文档格式)文件，方便不同系统之间交互。
[0004]目前主要使用OCR(Optical Character Recognition，光学字符识别)技术从PDF文件获取表格中的数据，OCR技术将PDF文件转换为图像，再从图像中识别字符，这个过程会丢失部分信息，存在一定的错误率。
[0005]在核对账单信息等业务中，即便错误率再小，也会导致业务出错，影响较大，为保证数据的准确性，在这些业务中会直接从PDF文件中读取数据。
[0006]但是，业务数据因表格的格式限制，存在长度不等、分行等情况，直接读取数据会存在错位的问题，此时，主要是依赖人工进行校正，耗时较长，成本较高，整体效率偏低。

技术实现思路

[0007]本专利技术提供了一种读取表格、校对支付数据的方法、设备及存储介质，以解决如何在保证从PDF文件读取表格中的数据的精确度的条件下、提高读取的效率。
[0008]根据本专利技术的一方面，提供了一种读取表格的方法，包括：
[0009]从属于便携式文档格式的文件中读取位于表格内的多排原...

【技术保护点】

【技术特征摘要】
1.一种读取表格的方法，其特征在于，包括：从属于便携式文档格式的文件中读取位于表格内的多排原始文本信息，所述表格中分布多行多列单元格，每排所述原始文本信息中具有至少一份字符串；识别位于同一行所述单元格的所述原始文本信息，作为目标文本信息；针对每排所述目标文本信息，依据所述字符串的分布规律校准所述字符串在列上所处的所述单元格；合并位于同一行及同一列所述单元格的所述字符串，得到位于同一行所述单元格的业务数据。2.根据权利要求1所述的方法，其特征在于，所述表格具有N行M列的单元格，每一行所述单元格中，各个所述单元格的高度相同，每一列所述单元格中，各个所述单元格的宽度相同。3.根据权利要求1所述的方法，其特征在于，所述识别位于同一行所述单元格的所述原始文本信息，作为目标文本信息，包括：在所述原始文本信息中统计所述字符串的数量；若所述原始文本信息中所述字符串的数量等于所述表格中列的数量，则确定所述原始文本信息之上存在切分点；确定位于相邻两个所述切分点之间的所述原始文本信息位于同一行所述单元格，作为目标文本信息。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述针对每排所述目标文本信息，依据所述字符串的分布规律校准所述字符串在列上所处的所述单元格，包括：在所述目标文本信息中统计所述字符串的数量；若所述字符串的数量小于所述列的数量，则查询为所述字符串的数量配置的各个分布场景及字符砝码，所述分布场景表示指定数量的字符串分布在各列的单元格的场景，所述字符砝码为所述分布场景中的字符串在长度上的特征；将所述字符串分布至各列所述单元格中，得到候选场景；若所述候选场景与所述分布场景相同，则将所述字符串的长度与所述字符砝码进行匹配；若匹配成功，则确定所述字符串已校准在列上所处的所述单元格。5.根据权利要求4所述的方法，其特征在于，所述将所述字符串分布至各列所述单元格中，包括：对所述字符串添加约束条件；在所述约束条件的限制下，将所述字符串排列至各列所述单元格中；其中，所述约束条件包括如下至少一条：所述字符串维持在同一排所述目标文本信息排序的顺序；在排列至某列所述单元格时，所述字符串的长度小于或等于同一列所述单元格的长度的上限范围；在排列至某列所述单元格时，同一列所述单元格中位于上一排的所述字符串的长度等于同一列所述单元格的长度的上限范围。6.根据权利要求4所述的方法，其特征在于，所述字符砝码为所述分布场景中的所有字
符串的长度之和所处的波动范围；所述将所述字符串的长度与所述字符砝码进行匹配，包括：对所述字符串的长度求和，得到总长度；若所述总长度在所述波动范围内，则确定所述字符串的长度与所述字符砝码匹配成功。7.根据权利要求4所述的方法，其特征在于，所述针对每排所述目标文本信息，依据所述字符串的分布规律校准所述字符串在列上所处的所述单元格，还包括：若所述字符串的数量等于列的数量，则查询所述字符串在所述原始文本信息中排序的顺序；按照所述顺序依次将所述字符串划分至各列所述单元格。8.一种校对支付数据的方法，其特征在于，包括：加载过滤器链，所述过滤器链中分布有多个链式的过滤器，所述过滤器至少包括清洗过滤器与核对过滤器；在所述清洗过滤器中，从属于便携式文档格式的...

【专利技术属性】
技术研发人员：黎升杰，
申请(专利权)人：广州趣研网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人