文档处理制造技术

技术编号:10967619 阅读:72 留言:0更新日期:2015-01-28 19:41
本公开涉及用于从文档中提取数据的系统和方法。计算机接收来自发送方的消息。所述消息具有电子文档和发送方的电子地址。该计算机基于所述发送方的地址,选择包括数据字段的位置数据的映射,并且通过使用选择的映射的位置数据从所述电子文档中提取数据,来确定所述数据字段的值。由于所述计算机基于所述发送方的地址来选择映射,所以计算机不需要依赖电子文档的内容来选择要使用的正确映射,这使得选择更不易出错,并且本方法可以与现有电子邮件系统一起使用。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本公开涉及用于从文档中提取数据的系统和方法。计算机接收来自发送方的消息。所述消息具有电子文档和发送方的电子地址。该计算机基于所述发送方的地址,选择包括数据字段的位置数据的映射,并且通过使用选择的映射的位置数据从所述电子文档中提取数据,来确定所述数据字段的值。由于所述计算机基于所述发送方的地址来选择映射,所以计算机不需要依赖电子文档的内容来选择要使用的正确映射,这使得选择更不易出错,并且本方法可以与现有电子邮件系统一起使用。【专利说明】文档处理
本公开涉及用于处理文档、也即从文档中提取数据的计算系统。本公开包括对方法、计算机系统和软件的描述。
技术介绍
随着业务过程的计算机化,文档是以诸如来自扫描设备的图像文件的电子形式处理。几乎在所有的情况下,对于不同供应商,文档的格式是不同的,并且难以从文件中提取所需要的数据。 大多数公司,并且特别是从大量供应商那里购买商品或服务的公司,面临着处理大量不同发票的问题。 对已包括在本说明书中的文档、动作、材料、设备、物品等的任何讨论不应被理解为由于它在本申请的每项权利要求的 优先权日:之前存在,就承认任何或所有这些事项形成现有技术基础的一部分,或者是与本公开相关的领域中的公知常识。 贯穿本说明书,词语“包括”或者诸如“包含”或“含有”之类的变体将被理解为意味着包括所陈述的元件、整体或步骤,或者元件、整体或步骤的群组,但是不排除任何其它元件、整体或步骤,或者元件、整体或步骤的群组。
技术实现思路
在第一方面中,提供了一种用于从具有文档数据的电子文档中提取数据的计算机实现的方法,该方法包括: (a)接收来自发送方的消息,所述消息具有所述电子文档和所述消息的发送方的电子地址; (b)基于发送方的地址,选择包括数据字段的位置数据的多个映射其中一个映射; (C)通过基于选择的映射的位置数据从所述电子文档中提取数据,确定选择的所述映射的数据字段的值;以及 (d)将所述数据字段的值存储在数据存储设备上。 优点在于,基于所述发送方的地址选择映射。结果,所述方法不需要依赖电子文档的内容来选择要使用的正确映射。同时,通过依赖发送方的电子地址,与在使用电子文档的内容时相比,选择映射更不易出错。同时,本方法可以与诸如电子邮件之类的发送文档的现有方法一起使用,这意味着本方法不要求任何额外的信息或定制,从而允许容易地与当前的文档通信系统集成。 电子文档可以包括发票元素的位置数据,并且其中该方法包括: 确定选择的映射的至少一个数据字段的位置数据和至少一个文档元素的位置数据是否标识相同位置;以及 如果选择的映射的至少一个数据字段的位置数据和至少一个文档元素的位置数据标识相同位置,则通过从至少一个文档元素中提取文档数据,来确定选择的映射的至少一个数据字段的值。 优点在于,通过确定位置数据是否标识相同位置,可以将多个映射用于特定文档。结果,并不适合于该文档的映射根本没有给出结果,并且可以使用下一映射。 电子地址可以是电子邮件地址。电子地址可以是传真号码。 电子文档可以是结构化文档。优点在于,结构化文档被标准化,并且针对这些文档的处理器是广泛可用的。结果,对文件中的位置数据的访问被简化。 电子文档可以是XML文档,并且文档元素可以是包括位置数据的XML元素。 映射可以是XML映射。 选择多个映射中一个映射可以包括基于所述发送方的地址,从所述多个映射中选择映射的子集。优点在于,选择映射子集。结果,所述方法可以在使用转发服务器并且发送方的地址并没有明确标识映射的情况下执行。以这种方式,选择与所述转发服务器的地址关联的所有映射。 所述方法可以包括: 接收针对第一接收方的消息;以及 接收来自其他接收方的多个映射,以使得第一接收方并非其他接收方之一。优点在于,选择从其他接收方那里接收的映射。结果,许多接收方的映射被共享,并且针对发布者的文档的映射需要由任一接收方创建仅一次。 消息可以具有接收方地址,并且选择所述多个映射其中一个映射是基于所述接收方地址。基于所述接收方的地址来选择映射是具有优势的。结果,针对相同发送方,不同接收方可以具有不同映射。这允许每个接收方从来自相同发送方的文档中提取不同的数据。 在第二方面中,提供了用于从具有文档数据的电子文档中提取数据的计算机系统,所述系统包括: 一个或多个通信端口 ; 一个或多个处理器,以操作用于 在通信端口处接收来自发送方的消息,所述消息具有电子文档和消息的发送方的电子地址, 基于所述发送方的地址,选择包括数据字段的位置数据的多个映射其中一个映射,以及 通过基于选择的映射的位置数据从所述电子文档中提取数据,来确定选择的映射的数据字段的值;以及 一个或多个数据存储设备,用于存储与所述文档关联的数据字段的值。 在第三方面中,提供了一种软件,也就是记录在计算机可读介质上的计算机可读指令,在由计算机执行时所述软件使得计算机执行刚在上面描述的方法。 在第四方面中,提供了用于创建用于从电子文档中提取数据的映射的计算机实现的方法,所述方法包括: 接收来自发送方的消息,所述消息具有电子文档和消息的发送方的电子地址; 使得所述电子文档被显示给用户; 从所述用户接收对一个或多个数据字段的选择; 确定与每个数据字段关联的位置数据; 将与一个或多个数据字段中的每个关联的位置数据连同到发送方的地址的关联一起存储为映射。 在第五方面中,用于创建用于从电子文档中提取数据的映射的计算机系统,所述系统包括: 一个或多个通信端口 ; 一个或多个处理器,以操作用于 接收来自发送方的消息,所述消息具有电子文档和所述消息的发送方的电子地址; 使得所述电子文档被显示给用户; 从所述用户接收对一个或多个数据字段的选择; 确定与每个数据字段关联的位置数据;以及 —个或多个数据存储设备,用于将与一个或多个数据字段中的每个关联的位置数据连同到发送方的地址的关联一起存储为映射。 在第六方面中,提供了一种软件,即记录在计算机可读介质上的计算机可读指令,所述软件在由计算机执行时使得计算机执行刚在上面描述的方法。 在适当的情况下,上面阐述的第一方面的可选特征也是其它方面的可选特征。 【专利附图】【附图说明】 现在将参照附图描述示例,其中: 图1图示了用于文档处理的系统。 图2更加详细地图示了发票和映射的呈现显示。 图3图示了文档的XML代码。 图4图示了映射的XML代码400。 图5图示了用于从文档中提取数据的方法。 图6图示了计算机网络。 图7图示了来自图6的处理服务器的另一示例。 图8图示了另一计算机网络。 图9至图16图示了用于创建映射的图形界面。 【具体实施方式】 图1图示了用于从文档(在该示例中为发票)中提取数据的系统100,其包括诸如开具发票的公司之类的开具方102和开具方服务器104。开具方服务器104经由诸如因特网之类的计算机网络连接到处理服务器110。处理服务器110连接到数据存储设备112,诸如通过局域网或因特网。处理服务器110还连接到应付账款服务器114。在其它示例中,处理服务器110连接到库存系统或ERP系统。在又一示例中,服务器之本文档来自技高网...
文档处理

【技术保护点】
一种用于从具有文档数据的电子文档中提取数据的计算机实现的方法,所述方法包括:(a)接收来自发送方的消息,所述消息具有所述电子文档和所述消息的所述发送方的电子地址;(b)基于所述发送方的所述地址,选择包括数据字段的位置数据的多个映射其中一个映射;(c)通过基于选择的所述映射的所述位置数据从所述电子文档中提取数据,来确定选择的所述映射的所述数据字段的值;以及(d)将所述数据字段的所述值存储在数据存储设备上。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:R·J·格雷格M·B·J·哈里森D·萨瓦格C·E·米切尔
申请(专利权)人:因特伟特公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1