监视电子文件的系统和方法技术方案

技术编号:21176435 阅读:35 留言:0更新日期:2019-05-22 12:07
一种监视电子文件的系统和方法。该方法包括:分析第一电子文件以确定至少一个交易参数,其中第一电子文件包括至少部分非结构化数据;为第一电子文件创建模板,其中所创建的模板是包括所确定的至少一个交易参数的结构化数据集;以及将所创建的模板的数据和与多个第二电子文件相关联的数据进行比较,以标识第一电子文件中的至少一个异常。

The System and Method of Monitoring Electronic Documents

A system and method for monitoring electronic documents. The method includes: analyzing the first electronic file to determine at least one transaction parameter, in which the first electronic file includes at least part of unstructured data; creating a template for the first electronic file, in which the created template is a structured data set comprising at least one transaction parameter determined; and associating the data of the created template with multiple second electronic files. Data is compared to identify at least one exception in the first electronic file.

【技术实现步骤摘要】
【国外来华专利技术】监视电子文件的系统和方法相关申请的交叉引用本申请要求于2016年8月5日提交的、序列号为62/371,234的美国临时申请的优先权。本申请同时也是于2016年11月28日提交的、序列号为15/361,934的待决美国专利申请的部分延续案。上述申请的内容通过引用并入此文。
本专利技术总体地涉及监视数据系统中的文件,以及更具体地涉及识别电子文件中的异常。
技术介绍
由于近几十年来技术的快速发展,世界各地人们之间的通信变得越来越快捷方便。因此,以前在数天或数周才能完成的交易现在可以在几秒钟内完成。特定企业现在可以每年完成数千或数百万笔交易。其中一些交易可能是重要的大规模交易。随着企业越来越依赖技术来管理与发票和采购订单数据等操作相关的数据,用于恰当管理和验证数据的合适系统已成为成功的关键。特别是对于大型企业而言,企业每天使用的数据量可能非常大。因此,在最好的状态下,人工审查和验证此类数据是不切实际的。然而,多份记录保存文件之间的差异可能会给企业带来严重问题,例如,未能向税务机关恰当地申报收入。因此,企业非常希望快速检测并纠正公司记录中的任何异常。当企业使用多个供应商提供服务和商品时,这个问题可能特别困难,因为来自不同供应商的记录可能包含不同的信息、可能以不同的格式编排、可能包含价格的错误或突然变化等。此外,当以非结构化数据格式接收公司记录时,识别异常可能是具有挑战性的。例如,发票通常以显示发票扫描件的图像文件接收。现有一些用于自动识别扫描文件(例如,发票和收据)或其他非结构化电子文件(例如,非结构化文本文件)中的信息的解决方案。这些解决方案在准确标识和识别电子文件的字符和其他特征方面经常面临挑战。此外,输入的非结构化电子文件的内容退化通常导致更高的错误率。结果,现有的图像识别技术在理想情况下(即,非常清晰的图像)并不完全准确,而当输入图像不太清楚时,它们的准确度通常会急剧下降。此外,丢失或不完整的数据可能在随后的数据使用期间导致错误。许多现有解决方案不能识别丢失的数据,除非例如结构化数据集中的字段不完整。此外,现有的图像识别解决方案可能无法准确识别部分或全部特殊字符(例如,“!”、“@”、“#”、“$”、“%”、“&”等)。作为示例,一些现有的图像识别解决方案可能不准确地将扫描的收据中所包含的短划线标识为数字“1”。作为另一个例子,一些现有的图像识别解决方案不能识别诸如美元符号、日元符号等特殊字符。此外,这些解决方案在为后续使用而准备识别信息可能面临挑战。具体地,许多这样的解决方案或者以非结构化格式产生输出,或者只有输入的电子文件被特定地格式化以供图像识别系统识别,才能产生结构化输出。产生的非结构化输出通常无法有效处理。特别地,这种非结构化输出可以包含重复,并且可以包括在使用之前需要后续处理的数据。因此,提供克服现有技术的种种缺陷的技术方案是有利的。
技术实现思路
本文公开的几个示例性实施例概述如下。提供概述是为了方便读者提供对此类实施例的基本理解并且不完全限定所公开的广度。该概述不是所有预期实施例的广泛概述,并且既不旨在标识所有实施例的关键或重要元素,也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式呈现一个或多个实施例的一些概念,作为稍后呈现的更详细描述的前序。为方便起见,本文可使用术语“一些实施例”来指代本专利技术的单个实施例或多个实施例。本文公开的某些实施例包括用于监视电子文件的方法。该方法包括:分析第一电子文件以确定至少一个交易参数,其中第一电子文件包括至少部分非结构化数据;为第一电子文件创建模板,其中所创建的模板是包括所确定的至少一个交易参数的结构化数据集;以及将所创建的模板的数据和与多个第二电子文件相关联的数据进行比较,以标识第一电子文件中的至少一个异常。本文公开的某些实施例也包括非暂时性计算机可读介质,其上存储有用于使处理电路执行过程的指令,该过程包括:分析第一电子文件以确定至少一个交易参数,其中第一电子文件包括至少部分非结构化数据;为第一电子文件创建模板,其中所创建的模板是包括所确定的至少一个交易参数的结构化数据集;以及将所创建的模板的数据和与多个第二电子文件相关联的数据进行比较,以标识第一电子文件中的至少一个异常。本文公开的某些实施例还包括用于监视电子文件的系统。该系统包括:处理电路;以及存储器,该存储器包含指令,当指令被处理电路执行时,将系统配置为:分析第一电子文件以确定至少一个交易参数,其中第一电子文件包括至少部分非结构化数据;为第一电子文件创建模板,其中所创建的模板是包括所确定的至少一个交易参数的结构化数据集;以及将所创建的模板的数据和与多个第二电子文件相关联的数据进行比较,以标识第一电子文件中的至少一个异常。附图说明在说明书结尾处的权利要求书中具体指出并清楚地要求保护本文所公开的主题。通过以下结合附图的详细描述,所公开实施例的前述和其他目的、特征和优点将显而易见。图1为用于描述各种公开实施例的网络图;图2为根据实施例的验证系统示意图;图3为显示了根据实施例的用于监视电子文件的方法的流程图;图4为显示了根据实施例的基于至少一份电子文件创建数据集的方法的流程图;图5为显示了根据实施例的基于就输入电子文件所创建的模板标识异常的方法的流程图。具体实施方式重要的是,需注意本文公开的实施例仅是本文的创新教导的许多有利用途的示例。一般来说,在本申请的说明书中做出的陈述不一定限制任何各种要求保护的实施例。此外,一些陈述可能适用于某些专利技术特征而不适用于其他特征。通常,除非另有说明,否则单数元素可以是复数,反之亦然而不失一般性。在附图中,相同的标号标记在若干视图中表示相同的部件。各种本文公开的实施例包括监视电子文件的方法和系统。这里公开的实施例可以用于检测和纠正所监视的电子文件中的异常。在一个实施例中,数据集是基于第一输入电子文件而创建。输入电子文件包括交易的数据,并且可以包括非结构化数据。事务属性的模板是基于输入电子文件数据集而创建。将为输入电子文件所创建的模板的数据与第二样本电子文件的数据进行比较。基于该比较,可以标识数据值中的一个或多个异常。可以生成指示异常的警报。本文公开的实施例允许自动识别诸如新接收发票中的异常。更具体地,所公开的实施例包括提供用于电子文件的结构化数据集模板,从而允许有效且准确地比较包括在非结构化、半结构化或缺乏已知结构的电子文件中的数据。此外,为电子文件所创建的模板允许更有效地比较数据的特定集合,因为比较可能是限于模板的特定字段之间的比较。例如,可以将模板的“时间”字段中的数据与其他模板的“时间”字段中的数据进行比较,而不需要与其他数据进行比较。图1示出了用于描述各种公开实施例的示例网络图100。在示例网络图100中,电子文件监视器120、企业系统130、数据库140和多个数据源150-1到150-N(仅仅为了简单起见,下文中分别称为数据源150和统称为多个数据源150)通过网络110通信地连接。网络110可以是但不限于无线网、蜂窝或有线网络、局域网(LAN)、广域网(WAN)、城域网(MAN)、因特网、万维网(WWW)、类似网络以及其组合。企业系统130与企业相关联,并且可以存储与企业或企业代表进行购买有关的数据,以及与企业自身有关的数据。企业可以是但不本文档来自技高网
...

【技术保护点】
1.一种监视电子文件的方法,包括:分析第一电子文件以确定至少一个交易参数,其中所述第一电子文件包括至少部分非结构化数据;为所述第一电子文件创建模板,其中所创建的模板是包括所确定的至少一个交易参数的结构化数据集;以及将所创建模板的数据和与多个第二电子文件相关联的数据进行比较,以标识所述第一电子文件中的至少一个异常。

【技术特征摘要】
【国外来华专利技术】2016.08.05 US 62/371,234;2016.11.28 US 15/361,9341.一种监视电子文件的方法,包括:分析第一电子文件以确定至少一个交易参数,其中所述第一电子文件包括至少部分非结构化数据;为所述第一电子文件创建模板,其中所创建的模板是包括所确定的至少一个交易参数的结构化数据集;以及将所创建模板的数据和与多个第二电子文件相关联的数据进行比较,以标识所述第一电子文件中的至少一个异常。2.根据权利要求1所述的方法,其中确定至少一个交易参数还包括:在所述第一电子文件中识别至少一个关键字段和至少一个值;基于所述第一电子文件创建数据集,其中所创建的数据集包括所述至少一个关键字段和所述至少一个值;以及分析所创建的数据集,其中基于该分析确定至少一个交易参数。3.根据权利要求2所述的方法,其中确定所述至少一个关键字段和所述至少一个值还包括:分析所述第一电子文件以确定所述第一电子文件中的数据;以及基于一预定的关键字段列表,提取所确定数据的至少一部分,其中所确定数据的至少一部分与所述预定的关键字段列表中的至少一个关键字段匹配。4.根据权利要求3所述的方法,其中分析所述第一电子文件还包括:对所述第一电子文件执行光学字符识别。5.根据权利要求1所述的方法,其中,将所创建模板的数据和与所述多个第二电子文件相关联的数据进行比较还包括:将所述至少一个交易参数的第一值与多个所述第二电子文件相关联的第二值进行比较,其中,当所述第一值和所述第二值之间的差值至少符合阈值时,标识异常。6.根据权利要求5所述的方法,其中,基于包括所述第一值的模板字段,选择所述第二值用于比较。7.根据权利要求1所述的方法,进一步包括:生成指示所标识的至少一个异常的警报。8.根据权利要求1所述的方法,其中,所述至少一个交易参数包括交易数量、时间指针和供应商标识符,其中,所述至少一个异常包括与在所述第二电子文件中指示的交易数量相比的交易数量的异常值。9.根据权利要求1所述的方法,其中每个电子文件是电子发票。10.一种非暂时性计算机可读介质,其上存储有用于使处理电路执行一处理的指令,所述处理包括:分析第一电子文件以确定至少一个交易参...

【专利技术属性】
技术研发人员:N·古兹曼I·萨夫特
申请(专利权)人:瓦特博克有限公司
类型:发明
国别省市:以色列,IL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1