自动化智能数据抓取和验证制造技术

技术编号:15529691 阅读:127 留言:0更新日期:2017-06-04 16:59
本申请涉及一种用于从多个独特的非一致第三方网络门户分析非一致呈现的数据的计算机服务器系统。该系统可包括命令序列处理器,所述命令序列处理器被配置为自动地执行用于一个或多个第三方网络门户中的每个的专用网络门户命令序列,所述一个或多个第三方网络门户经由网络通信设备进行访问。专用网络门户命令序列中的每个可以被配置为模仿来自用户输入设备的输入,并且自动地适应与一个或多个第三方网络门户中的一个的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素。计算机服务器系统还可以包括数据库处理器,所述数据库处理器被配置为将从一个或多个非一致的能用的数据字段接收的第一数据集与存储在本地数据库设备内的第二数据集进行比较。

Automated intelligent data capture and verification

The present application relates to a computer server system for analyzing inconsistent presentation data from a plurality of unique heterogeneous third party network portals. The system may include a command sequence processor, the command sequence processor is configured to automatically execute a special web portal for each one or more of the third party web portal in the command sequence, one or more of the third party web portal through the network communication equipment for access. Each special network portal command sequence can be configured to copy from the user input device input, and automatically adapt to the interaction with one or more of the third party web portal in a data element, to access and analysis from one or more non consistent with the data word segment. The computer system may also include a database server processor, the data processor is configured to the first data set and storing the received from one or more non consistent with the data field second data in the local database within the device compared to the set.

【技术实现步骤摘要】
【国外来华专利技术】自动化智能数据抓取和验证
本专利技术总体涉及从网络门户抓取数据以及数据的验证。
技术介绍
为了精简生产力和打击欺诈,许多国家正在转向授权电子账单。在许多情况下,政府授权的账单要求公司并且有时是个人通过政府单位注册账单。已注册的账单可以进行数字签名,或以其他方式进行认证。另外,在使用授权电子账单的某些情况下,只有电子注册的账单才具有法律效力。因此,公司非常积极地确保账单正确注册。同样,公司也非常积极地确保注册的账单是准确和完整的,以避免与无效账单有关的问题。在处理付款和账单时,公司通常需要执行复杂的、易出错的任务,以访问和验证各种账单。例如,为了访问账单,可需要购买者访问供应商网络门户。来自每个供应商的每个网络门户可以是独特的和复杂的。另外,每个网络门户可以不同的、独特的格式提供账单信息。由此,购买者必须识别导航每个独特网站的正确方式,并且单独验证必要的账单和文档被下载。然后,购买者必须根据他们自己的记录验证下载的账单和文档。另外,在至少一些实施中,需要将账单上传到网络门户并验证账单条目。例如,可需要账单供应商根据相关的采购订单上传和校验账单。账单供应商可进一步需要在处理账单之前解决账单和采购订单之间的任何差异。进一步地,在至少一种实施例中,可将用户可限制到短时间窗口,在该时间窗口期间可以上传账单。例如,账单供应商可仅具有两小时窗口来输入所有当天账单。未能输入信息可导致持续积压到第二天,或者导致无法及时收款。因此,在现有技术中存在许多可以解决的缺点。
技术实现思路
本专利技术的实施例包括被配置为从网络门户智能地抓取数据并且然后验证该数据的系统、方法和装置。具体地,本专利技术的实施例包括一个或多个用于执行收集数据的网页专用脚本的方法和系统。网页专用脚本可提供用于从不同源收集大量数据的高效手段。附加实施可提供用于完成网络表单,上传信息和校验信息的动态系统。另外,本专利技术的实施例可以显著地减少人为造成的错误并且在校验大量数据时提供显著的时间节省。本专利技术的实施例可包括服务器计算机系统,服务器计算机系统针对第二数据集智能地加载和验证非一致格式的数据。具体地,服务器可被配置为执行用于访问和比较非一致存储的数据集的计算机化的方法。该方法可包括在一个或多个数据结构内识别感兴趣的专用数据条目。一个或多个数据结构可存储在第一本地可访问数据库内。该方法还可包括访问特定的第三方网络门户。特定的第三方网络门户可包括与一个或多个数据结构相关联的信息。另外,该方法可包括执行对于特定的第三方网络门户独特的特定的脚本。特定的脚本可被配置为通过模仿来自用户输入设备的输入来与特定的第三方网络门户交互。另外,脚本可自动地适应与特定的第三方网络门户的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素。进一步地,该方法可包括将从一个或多个非一致的能用的数据字段接收的第一数据集与第二数据集进行比较。第二数据集可存储在第二本地可访问数据库内。该方法还可包括基于所比较的数据生成报告。报告可包括第一数据集和第二数据集之间的差异的通知。本专利技术的附加实施可包括用于解析来自各种独特的非一致第三方网络门户的非一致呈现的数据的服务器计算机系统。计算机服务器系统可包括本地数据库设备,本地数据库设备包括到一个或多个第三方网络门户的地址。服务器计算机系统还可包括被配置为自动访问一个或多个第三方网络门户的网络通信设备。另外,服务器计算机系统可包括脚本处理器,脚本处理器被配置自动执行用于由网络通信设备访问的一个或多个第三方网络门户中的每个的网络门户专用脚本。网络门户专用脚本中的每个可被配置为通过模仿来自用户输入设备的输入与一个或多个第三方网络门户中的每个进行交互。另外,网络门户专用脚本可被配置为自动地适应与一个或多个第三方网络门户中的每个的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素。进一步地,服务器计算机系统可包括数据库处理器,数据库处理器被配置为将从一个或多个非一致的能用的数据字段接收的第一数据集与存储在本地数据库设备内的第二数据集进行比较。更进一步地,计算机服务器系统可包括被配置为基于所比较的数据显示报告的用户输出设备。该报告包括第一数据集和第二数据集之间的差异的通知。本专利技术的示例性实施的附加特征和优点将在下面的描述中进行阐述,并且将部分地从描述中显而易见,或者可以通过此类示例性实施的实践来学习。此类实施的特征和优点可借助于在所附权利要求中特别指出的工具和组合来实现和获得。这些和其他特征将从以下描述和所附权利要求中变得更加显而易见,或者可通过如下所述的示例性实施的实践来学习。附图说明为了描述可以获得本专利技术的上述和其他优点和特征的方式,将通过参考在附图中示出的本专利技术的具体实施例来呈现上面简要描述的本专利技术的更具体的描述。应当理解,这些附图仅描绘了本专利技术的典型实施例,并且因此不应被认为是对其范围的限制,将通过使用附图以附加的特征和细节来描述和解释本专利技术,其中:图1示出根据本专利技术的实施例的系统的示意图;图2示出根据本专利技术的实施例的网页的描述;图3示出根据本专利技术的实施例的网页的另一描述;图4示出根据本专利技术的实施例的网页的又一描述;图5示出根据本专利技术的实施例的数据库处理器的示意图;以及图6示出根据本专利技术的实施例的方法的流程图。具体实施方式本专利技术扩展到被配置为智能地从网络门户抓取数据并且然后验证该数据的系统,方法和装置。具体地,本专利技术的实施例包括执行用于收集数据的网页专用脚本的一个或多个方法和系统。网页专用脚本可以提供用于从不同源收集大量数据的高效手段。附加实施可以提供用于完成网络表单,上传信息和校验信息的动态系统。另外,本专利技术的实施例可以在校验大量数据时显著地减少人为造成的错误。因此,本专利技术的实施例提供了用于优化计算机性能同时最小化人为引入的空气(human-introducedair)的系统和方法。具体地,本专利技术的实施例可以跨越各种不同的平台访问非一致存储的数据。然后可以针对第二数据源校验收集的数据。随着越来越多的社会、经济、商业、技术和其他活动转向数字环境,能够在各种可用平台之间准确地关联数据变得越来越重要。例如,组织可与各种不同的公司进行交易。每个公司可以提供它自己独特的网络门户以管理其与外部组织的关系。在至少一种实施例中,可需要访问每个相应的独特网络门户并从每个独特网络门户收集非一致存储的数据。应当理解从若干不同的独特网络门户正确地识别和收集非一致存储的数据的重大技术挑战。类似地,应当理解在手动执行这些任务中的巨大成本和人为错误的可能性。另外,应当理解,在至少一种实施例中,使用自动化和技术实施的系统和方法来访问非一致存储的数据可以提供益处并且执行人类用户不能复制的功能。例如,图1描绘了通过网络120与各种网络服务器110通信的服务器计算机系统100。网络服务器110可包括一个或多个单独的和不同的网络服务器110a、110b,每个网络服务器对应于相应的第三方网络门户。例如,网络服务器110a可以与特定服务供应商相关联,而网络服务器110b可以与特定制造商相关联。在任何情况下,用户均可需要从两个服务器110a、110b收集数据;然而,数据可以被不同地访问数据并且不同地存储在两个相应的网络门户之间。因此,本专利技术的实施例包括服务器计算机系统100,其本文档来自技高网...
自动化智能数据抓取和验证

【技术保护点】
一种计算机化的方法,用于在服务器计算机系统处访问和比较非一致存储的数据集,所述服务器计算机系统针对第二数据集智能地加载和验证处于非一致格式的数据,所述方法包括:在一个或多个数据结构内识别感兴趣的专用数据条目,其中所述一个或多个数据结构存储在第一本地能访问的数据库内;访问特定的第三方网络门户,其中所述特定的第三方网络门户包括与所述一个或多个数据结构相关联的信息;执行对所述特定的第三方网络门户独特的特定的脚本,其中所述特定的脚本执行以下方法:通过模仿来自用户输入设备的输入来与所述特定的第三方网络门户交互;以及自动适应与所述特定的第三方网络门户的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素;将从所述一个或多个非一致的能用的数据字段接收的第一数据集与存储在第二本地能访问的数据库内的所述第二数据集进行比较;以及基于所比较的数据生成报告,其中所述报告包括所述第一数据集和所述第二数据集之间的差异的通知。

【技术特征摘要】
【国外来华专利技术】2015.02.11 US 14/619,7511.一种计算机化的方法,用于在服务器计算机系统处访问和比较非一致存储的数据集,所述服务器计算机系统针对第二数据集智能地加载和验证处于非一致格式的数据,所述方法包括:在一个或多个数据结构内识别感兴趣的专用数据条目,其中所述一个或多个数据结构存储在第一本地能访问的数据库内;访问特定的第三方网络门户,其中所述特定的第三方网络门户包括与所述一个或多个数据结构相关联的信息;执行对所述特定的第三方网络门户独特的特定的脚本,其中所述特定的脚本执行以下方法:通过模仿来自用户输入设备的输入来与所述特定的第三方网络门户交互;以及自动适应与所述特定的第三方网络门户的交互,以访问和解析来自一个或多个非一致的能用的数据字段的数据元素;将从所述一个或多个非一致的能用的数据字段接收的第一数据集与存储在第二本地能访问的数据库内的所述第二数据集进行比较;以及基于所比较的数据生成报告,其中所述报告包括所述第一数据集和所述第二数据集之间的差异的通知。2.根据权利要求1所述的方法,其中,基于与所述一个或多个数据结构相关联的信息,从一组第三方网络门户选择所述特定的第三方网络门户。3.根据权利要求2所述的方法,进一步包括:使用第一本地存储的数据文件访问所述第二数据集,其中所述第二数据集包括一个或多个账单;识别所述第一数据集内的数据条目和相关联的数据元素;确定所述数据元素中的一个或多个不同于所述第二数据集内的对应数据条目的数据元素;以及生成识别不同的数据元素的报告。4.根据权利要求1所述的方法,进一步包括:接收比较用于特定客户端的记录的指示;在数据存储器内访问所述感兴趣的专用数据条目,其中所述感兴趣的专用数据条目包括与所述特定客户端相关联的一个或多个第三方网络门户;自动访问所述一个或多个第三方网络门户中的每个;以及在所述一个或多个第三方网络门户中的每个上自动执行对于每个相应的第三方网络门户独特的脚本。5.根据权利要求1所述的方法,其中创建所述脚本包括:激活所述系统内的记录特征,其中所述记录特征捕捉用户和所述系统之间的一个或多个输入和输出信号;捕捉和记录从用户鼠标和用户键盘接收的输入信号,其中所述输入信号包括一个或多个第三方网络门户地址;捕捉和记录从与所述一个或多个第三方网络门户地址相关联的一个或多个第三方网络门户接收的输出信号,其中所述输出信号包括响应于所述输入信号显示的一个或多个网页;识别与相应输入信号相关联的一个或多个输出信号;以及识别所述一个或多个非一致的能用的数据字段。6.根据权利要求5所述的方法,进一步包括:从用户接收关于网页内的特定的元素的指示,其中所述元素与非一致的能用的数据字段相关联;以及将所述特定的元素映射到所述第二数据集内的特定的数据字段。7.根据权利要求6所述的方法,其中执行所述脚本包括:根据所捕捉和记录的输入信号自动生成移动所述用户鼠标的命令;以及在使一个或多个命令待发出之后等待,直到接收到对应的输出信号,其中所述对应的输出信号与先前捕捉和记录的输出信号对应。8.根据权利要求7所述的方法,进一步包括:识别所述网页内的所述特定的元素;解析来自与所述网页中的所述特定的元素位置性关联的数据字段的一个或多个数据元素;访问所述第二数据集内的所述特定的数据字段;以及识别所解析的一个或多个数据元素与来自所述特定的数据字段的数据元素之间的差异。9.根据权利要求8所述的方法,其中,解析一个或多个数据元素包括解析在所述网页上不可见但存在于本地存储器内的一个或多个数据元素。10.根据权利要求8所述的方法,进一步包括:识别来自与所述网页中在所述网页上不可见并且不存在于本地存储器内的所述特定的元素位置性关联的数据字段的一个或多个元素;通过识别数据字段改进元素来自动适应与所述特定的第三方网络门户的交互,其中所述数据字段改进元素包括在所述数据字段内显示附加元素的命令;通过模仿一个或多个用户输入来激活所述数据字段改进元素;以及解析先前在网页上不可见但由于所述数据字段的改进现在可见的一个或多个数据元素。11.一种服务器计算机系统,用于从各种独特的非一致第三方网络门户解析非一致呈现的数据,所述系统包括:本地数据库设备,包括一个或多个数据结构,所述一个或多个数据结构包括到一个或多个第三方网络门户的地址;网络通信设备,包括网络浏览器,其中所述网络浏览器被配置为自动访...

【专利技术属性】
技术研发人员:加布里埃尔·迪亚斯·加尔扎·亚伯拉罕里卡多·苏亚雷斯·洛佩斯
申请(专利权)人:最佳收藏有限公司
类型:发明
国别省市:墨西哥,MX

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1