数据提取方法、计算机设备及计算机存储介质技术

技术编号:38210505 阅读:15 留言:0更新日期:2023-07-21 17:01
本申请实施例公开了一种数据提取方法、计算机设备及计算机存储介质。本申请实施例包括:计算机设备部署多个文件模型,每个文件模型可提供与其所对应的文件类型相匹配的数据提取算法,因此,可确定目标文件的文件类型以及确定多个文件模型中与目标文件的文件类型对应的目标文件模型,进而使用该目标文件模型提供的与目标文件的文件类型相匹配的数据提取算法提取目标文件的数据内容。因此,无需由人员亲自手动对目标文件的文件类型转换为系统支持的文件类型,节省了人力和时间的付出,同时也避免了文件类型转换出错而导致文件的内容出错,因此可为数据服务方提供准确的数据来源。来源。来源。

【技术实现步骤摘要】
数据提取方法、计算机设备及计算机存储介质


[0001]本申请实施例涉及数据处理领域,具体涉及一种数据提取方法、计算机设备及计算机存储介质。

技术介绍

[0002]随着目前PC端和APP端以及小程序端等软件数量的爆炸式增长,随之而来的问题便是各个端的数据也会呈现一个快速增长的趋势,同时在数据来源的多维度和数据分析的多维度也会呈现出一定的增长。那么,对数据的提取和分析,也同时存在需要多维度进行的场景。
[0003]在文件类型多样的情况下,对不同类型文件的内容提取方法也呈现多种多样,单一的数据提取手段,对于多样的文件类型已然是不能满足的。例如,现有的技术只能固定解析和提取csv、execl或者文本等文件类型的文件,这就导致当文件的类型不是csv、execl或者文本等文件类型时,就需要业务人员亲自将文件的文件类型转换为上述类型,因而需要付出人力时间成本,同时也可能发生文件类型转换出错,如出现文件中字段的顺序错误或者字段类型错误,进而导致在进行数据展示或者数据分析时出现错误。

技术实现思路

[0004]本申请实施例提供了一种数据提取方法、计算机设备及计算机存储介质,无需人员亲自手动对目标文件的文件类型转换为系统支持的文件类型,可直接对任意的文件类型的文件进行数据提取。
[0005]本申请实施例第一方面提供了一种数据提取方法,所述方法应用于计算机设备,所述方法包括:
[0006]部署多个文件模型,每个所述文件模型对应一种或多种文件类型,每个所述文件模型提供与其所对应的文件类型相匹配的数据提取算法;
[0007]获取目标文件并确定所述目标文件的文件类型;
[0008]确定所述多个文件模型中与所述目标文件的文件类型对应的目标文件模型;
[0009]使用所述目标文件模型提供的与所述目标文件的文件类型相匹配的数据提取算法提取所述目标文件的数据内容。
[0010]本申请实施例第二方面提供了一种计算机设备,所述计算机设备包括:
[0011]部署单元,用于部署多个文件模型,每个所述文件模型对应一种或多种文件类型,每个所述文件模型提供与其所对应的文件类型相匹配的数据提取算法;
[0012]获取单元,用于获取目标文件并确定所述目标文件的文件类型;
[0013]确定单元,用于确定所述多个文件模型中与所述目标文件的文件类型对应的目标文件模型;
[0014]数据提取单元,用于使用所述目标文件模型提供的与所述目标文件的文件类型相匹配的数据提取算法提取所述目标文件的数据内容。
[0015]本申请实施例第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述第一方面的方法。
[0016]本申请实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
[0017]本申请实施例第五方面提供了一种计算机程序产品,所述计算机程序产品在计算机设备上运行时,使得所述计算机设备执行前述第一方面的方法。
[0018]从以上技术方案可以看出,本申请实施例具有以下优点:
[0019]本实施例中,计算机设备部署多个文件模型,每个文件模型可提供与其所对应的文件类型相匹配的数据提取算法,因此,可确定目标文件的文件类型以及确定多个文件模型中与目标文件的文件类型对应的目标文件模型,进而使用该目标文件模型提供的与目标文件的文件类型相匹配的数据提取算法提取目标文件的数据内容。因此,无需由人员亲自手动对目标文件的文件类型转换为系统支持的文件类型,节省了人力和时间的付出,同时也避免了文件类型转换出错而导致文件的内容出错,因此可为数据服务方提供准确的数据来源。
附图说明
[0020]图1为本申请实施例中网络框架示意图;
[0021]图2为相关技术方案中数据平台为各数据服务方提供数据来源支持一种应用场景示意图;
[0022]图3为本申请实施例中数据提取方法一个流程示意图;
[0023]图4为本申请实施例中数据提取方法另一流程示意图;
[0024]图5为本申请实施例中计算机设备为各数据服务方提供数据来源支持一种应用场景示意图;
[0025]图6为本申请实施例中计算机设备一个结构示意图;
[0026]图7为本申请实施例中计算机设备另一结构示意图。
具体实施方式
[0027]本申请实施例提供了一种数据提取方法、计算机设备及计算机存储介质,无需人员亲自手动对目标文件的文件类型转换为系统支持的文件类型,可直接对任意的文件类型的文件进行数据提取。
[0028]请参阅图1,本申请实施例中网络框架包括:
[0029]业务服务器100以及终端集群;终端集群可以包括:终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n等终端设备。
[0030]其中,上述业务服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备(包括终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n)可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobileinternetdevice,MID)、可穿戴设备(例如智能手表、智能手环
等)、智能电脑、智能车载等智能终端。
[0031]其中,业务服务器100与终端集群中的各终端设备可以建立通信连接,终端集群中的各终端设备之间也可建立通信连接。换句话说,业务服务器100可与终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n中的各终端设备建立通信连接,例如终端设备200a与业务服务器100之间可建立通信连接。终端设备200a与终端设备200b之间可建立通信连接,终端设备200a与终端设备200c之间也可建立通信连接。其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接等,具体可根据实际应用场景确定,本申请在此不做限制。
[0032]应该理解,如图1所示的终端集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可分别与业务服务器100之间进行数据交互,使得业务服务器100可以接收来自于每个终端设备的业务数据(比如用户通过终端设备上传的财务管理数据)。其中,该应用客户端可以为财务管理应用、企业事务管理应用、浏览器应用、社交应用、即时通信应用、直播应用、游戏应用、短视频应用、视频应用、音乐应用、购物应用、小说应用、支付应用等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端,具体可根据实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据提取方法,其特征在于,所述方法应用于计算机设备,所述方法包括:部署多个文件模型,每个所述文件模型对应一种或多种文件类型,每个所述文件模型提供与其所对应的文件类型相匹配的数据提取算法;获取目标文件并确定所述目标文件的文件类型;确定所述多个文件模型中与所述目标文件的文件类型对应的目标文件模型;使用所述目标文件模型提供的与所述目标文件的文件类型相匹配的数据提取算法提取所述目标文件的数据内容。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:部署统一抽象文件模型,所述统一抽象文件模型用于接收文件以及整合每个文件所提取得到的数据内容;所述确定所述多个文件模型中与所述目标文件的文件类型对应的目标文件模型,包括:通过所述统一抽象文件模型确定所述多个文件模型中与所述目标文件的文件类型对应的所述目标文件模型;由所述统一抽象文件模型将所述目标文件传递至所述目标文件模型,以执行所述使用所述目标文件模型提供的与所述目标文件的文件类型相匹配的数据提取算法提取所述目标文件的数据内容的步骤。3.根据权利要求2所述的方法,其特征在于,所述计算机设备配置有数据存储数据库;所述使用所述目标文件模型提供的与所述目标文件的文件类型相匹配的数据提取算法提取所述目标文件的数据内容之后,所述方法还包括:将所述目标文件的数据内容传递至所述统一抽象文件模型,以使所述统一抽象文件模型将所述目标文件的数据内容存储至所述数据存储数据库中。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标文件的原始文件;接收所述原始文件的内容变更操作,根据所述内容变更操作创建所述原始文件的快照版本文件;所述提取所述目标文件的数据内容之后,所述方法还包括:判断所述目标文件的内容是否与所述原始文件的内容或者所述快照版本文件的内容在字段上相匹配;若所述目标文件的内容与所述原始文件的内容在字段上相匹配,则将所述目标文件的数据内容追加至所述原始文件的内容中;若所述目标文件的内容与所述快照版本文件的内容在字段上相匹配,则将所述目标文件的数据内容追加至所述快照版本文件的内容中;若所述目标文件的内容与所述原始文件的内容以及所述快照版本文件的内容在字段上均不相匹配,则将所述目标文件作为所述原始文件的另一版本文件。5.根据权利要求4所述的方法,其特征在于,所述判断所述目标文件的内容是否与所述原始文件的内容或者所述快照版本文件的内容在字段上相匹配,包括:对...

【专利技术属性】
技术研发人员:鲍洋
申请(专利权)人:云镝智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1