数据采集方法、装置、计算机设备、存储介质和程序产品制造方法及图纸

技术编号:38879585 阅读:18 留言:0更新日期:2023-09-22 14:11
本申请涉及一种数据采集方法、装置、计算机设备、存储介质和程序产品。所述方法包括:读取内存数据库中数据的配置信息,并根据所述配置信息判断数据类型;其中,所述配置信息包括元数据信息、元数据映射信息和目标数据信息;若所述数据类型为半结构化数据或非结构化数据,则根据所述配置信息中的第一采集路径获取数据源文件,并通过人工智能AI识别技术识别所述数据源文件,以生成符合所述配置信息中的采集要求的源数据;根据所述元数据信息、所述元数据映射信息、所述目标数据信息和预设的内置函数,将所述源数据写入目标数据库。采用本方法能够扩宽数据采集技术的适用范围,更能够满足用户对不同数据类型的数据进行采集的需求。足用户对不同数据类型的数据进行采集的需求。足用户对不同数据类型的数据进行采集的需求。

【技术实现步骤摘要】
数据采集方法、装置、计算机设备、存储介质和程序产品


[0001]本申请涉及数据采集
,特别是涉及一种数据采集方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着网络技术的发展,数据类型呈现多样化。面对各式各样的数据,传统数据采集技术的适用范围较局限。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种能够扩宽数据采集的适用范围的数据采集方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0004]第一方面,本申请提供了一种数据采集方法。数据采集方法包括:
[0005]读取内存数据库中数据的配置信息,并根据配置信息判断数据类型;其中,配置信息包括元数据信息、元数据映射信息和目标数据信息;
[0006]若数据类型为半结构化数据或非结构化数据,则根据配置信息中的第一采集路径获取数据源文件,并通过人工智能AI识别技术识别数据源文件,以生成符合配置信息中的采集要求的源数据;
[0007]根据元数据信息、元数据映射信息、目标数据信息和预设的内置函数,将源数据写入目标数据库。
[0008]在其中一个实施例中,将源数据写入目标数据库之前,数据采集方法还包括:
[0009]若数据类型为结构化文本,则根据配置信息中的第二采集路径获取数据源文件,并通过文本识别技术识别数据源文件,以生成源数据。
[0010]在其中一个实施例中,将源数据写入目标数据库之前,数据采集方法还包括:
[0011]若数据类型为关系型数据库,则根据配置信息中的数据源信息获取源数据。
[0012]在其中一个实施例中,AI识别技术包括自然语言处理技术、光学字符识别技术、自动语音识别技术、视频AI识别技术中的至少一种;通过人工智能AI识别技术识别数据源文件,包括:
[0013]若数据类型为半结构化数据,则通过自然语言处理技术识别数据源文件;和/或
[0014]若数据类型为非结构化数据,则通过光学字符识别技术、自动语音识别技术、视频AI识别技术中的至少一种识别数据源文件。
[0015]在其中一个实施例中,读取内存数据库中数据的配置信息之前,数据采集方法还包括:
[0016]获取用户配置的数据类型;
[0017]根据不同的数据类型获取对应的配置信息,并将配置信息加载至内存数据库。
[0018]在其中一个实施例中,将源数据写入目标数据库,包括:
[0019]将源数据映射成目标数据源;
[0020]清洗或过滤目标数据源以获取目标数据;
[0021]将目标数据写入目标数据库。
[0022]第二方面,本申请还提供了一种数据采集装置,数据采集装置包括:
[0023]信息读取模块,用于读取内存数据库中数据的配置信息,并根据配置信息判断数据类型;其中,配置信息包括元数据信息、元数据映射信息和目标数据信息;
[0024]第一数据生成模块,用于若数据类型为半结构化数据或非结构化数据,则根据配置信息中的第一采集路径获取数据源文件,并通过人工智能AI识别技术识别数据源文件,以生成符合配置信息中的采集要求的源数据;
[0025]数据写入模块,用于根据元数据信息、元数据映射信息、目标数据信息和预设的内置函数,将源数据写入目标数据库。
[0026]第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的方法的步骤。
[0027]第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法的步骤。
[0028]第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
[0029]上述数据采集方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,读取内存数据库中数据的配置信息,并根据配置信息判断数据类型;若数据类型为半结构化数据或非结构化数据,则根据配置信息中的第一采集路径获取数据源文件,并通过人工智能AI识别技术识别数据源文件,以生成符合配置信息中的采集要求的源数据;进而,根据配置信息中的元数据信息、元数据映射信息、目标数据信息和预设的内置函数,对源数据进行加工处理,以将源数据写入目标数据库。采用上述数据采集方法,通过AI识别技术对数据源文件进行识别以生成源数据,能够实现对半结构化数据或非结构化数据的采集,扩宽了数据采集技术的适用范围,更能够满足用户对不同数据类型的数据进行采集的需求。
附图说明
[0030]图1为一个实施例中数据采集系统的功能模块架构图;
[0031]图2为一个实施例中数据采集方法的流程示意图之一;
[0032]图3为一个实施例中识别数据源文件以采集数据的示意图;
[0033]图4为一个实施例中数据采集方法的流程示意图之二;
[0034]图5为一个实施例中数据采集方法的流程示意图之三;
[0035]图6为一个实施例中数据采集方法的流程示意图之四;
[0036]图7为一个实施例中将源数据写入目标数据库的流程示意图;
[0037]图8为一个实施例中数据采集方法的流程示意图之五;
[0038]图9为一个实施例中数据采集装置的结构框图;
[0039]图10为一个实施例中计算机设备的内部结构图。
具体实施方式
[0040]为了便于理解本申请实施例,下面将参照相关附图对本申请实施例进行更全面的
描述。附图中给出了本申请实施例的首选实施例。但是,本申请实施例可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请实施例的公开内容更加透彻全面。
[0041]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请实施例的
的技术人员通常理解的含义相同。本文中在本申请实施例的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请实施例。
[0042]可以理解的是,术语“包括/包含”指定所陈述的特征、整体、步骤、操作、组件、部分或它们的组合的存在,但是不排除存在或添加一个或更多个其他特征、整体、步骤、操作、组件、部分或它们的组合的可能性。同时,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0043]随着网络技术的发展,数据类型呈现多样化,如关系型数据库、结构化文本、半结构化数据、非结构化数据,各式各样的数据,为数据的采集、处理、使用等都带了较大的挑战。传统数据采集技术主要是在关系型数据库或异构数据库中直接进行数据采集,较难实现对图片、视频、音频、网页等非结构化数据、文本等半结构化数据进行采集及处理,适用范围较局限,已较难满足用户对不同数据类型的数据进行采集的需求。本申请的实施例中,提供一种能够扩宽数据采集技术的适用范围的数据采集方法,根据不同的数据类型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:读取内存数据库中数据的配置信息,并根据所述配置信息判断数据类型;其中,所述配置信息包括元数据信息、元数据映射信息和目标数据信息;若所述数据类型为半结构化数据或非结构化数据,则根据所述配置信息中的第一采集路径获取数据源文件,并通过人工智能AI识别技术识别所述数据源文件,以生成符合所述配置信息中的采集要求的源数据;根据所述元数据信息、所述元数据映射信息、所述目标数据信息和预设的内置函数,将所述源数据写入目标数据库。2.根据权利要求1所述的方法,其特征在于,所述将所述源数据写入目标数据库之前,所述方法还包括:若所述数据类型为结构化文本,则根据所述配置信息中的第二采集路径获取所述数据源文件,并通过文本识别技术识别所述数据源文件,以生成所述源数据。3.根据权利要求1所述的方法,其特征在于,所述将所述源数据写入目标数据库之前,所述方法还包括:若所述数据类型为关系型数据库,则根据所述配置信息中的数据源信息获取所述源数据。4.根据权利要求1所述的方法,其特征在于,所述AI识别技术包括自然语言处理技术、光学字符识别技术、自动语音识别技术、视频AI识别技术中的至少一种;所述通过人工智能AI识别技术识别所述数据源文件,包括:若所述数据类型为半结构化数据,则通过所述自然语言处理技术识别所述数据源文件;和/或若所述数据类型为非结构化数据,则通过所述光学字符识别技术、所述自动语音识别技术、所述视频AI识别技术中的至少一种识别所述数据源文件。5.根据权利要求1至4任一项所述的方法,其特征...

【专利技术属性】
技术研发人员:李同兵李家菁孟祥锐陈誉唐世洁谢镇宇
申请(专利权)人:深圳市雁联计算系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1