一种数据入库方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:28320752 阅读:16 留言:0更新日期:2021-05-04 13:00
本发明专利技术公开了一种数据入库方法,该方法包括以下步骤:对接收到的数据入库请求进行解析,得到待入库的目标数据和目标数据对应的目标数据维度;对目标数据进行关键信息提取,得到各目标关键要素;分别利用各目标关键要素进行主体库匹配,得到各主体库;判断各主体库是否一致;若是,则根据目标数据维度利用目标数据对匹配到的主体库进行更新操作;若否,则根据各目标关键要素进行主体库生成操作,并将目标数据输入至生成的主体库。应用本发明专利技术所提供的数据入库方法,避免了数据重复问题,较大地提高了数据入库的准确性,提高了其他维度数据进行信息关联的正确性。本发明专利技术还公开了一种数据入库装置、设备及存储介质,具有相应技术效果。

【技术实现步骤摘要】
一种数据入库方法、装置、设备及计算机可读存储介质
本专利技术涉及存储
,特别是涉及一种数据入库方法、装置、设备及计算机可读存储介质。
技术介绍
大规模的网络爬虫和数据采买,数据会呈现多源异构形态,在采集到数据之后,需要将数据入库。现有的数据入库方式为抛开多渠道多数据源的外部因素,直接对内容关键信息进行合并和覆盖,数据库只记录最近一次更新的渠道标识。对不同渠道的数据处理中,往往根据信息是否完全一样来认定是否为同一条数据,需要确保入库数据的准确性,对数据源的质量要求很高。在网络爬虫的客观环境中,不同数据源的数据标准参差不齐,字段缺失不全、字段结构不一的概率很高,从而导致数据库中会存在大量重复数据,无法确认主体库的唯一性,导致其他子维度数据的信息关联也存在误判,或其子维度数据挂错主体库的问题。综上所述,如何有效地解决现有的数据入库方式数据库中数据重复率高,入库准确率低,影响其他维度数据的信息关联等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
本专利技术的目的是提供一种数据入库方法,该方法避免了数据重复问题,较大地提高了数据入库的准确性,提高了其他维度数据进行信息关联的正确性;本专利技术的另一目的是提供一种数据入库装置、设备及计算机可读存储介质。为解决上述技术问题,本专利技术提供如下技术方案:一种数据入库方法,包括:对接收到的数据入库请求进行解析,得到待入库的目标数据和所述目标数据对应的目标数据维度;对所述目标数据进行关键信息提取,得到各目标关键要素;分别利用各所述目标关键要素进行主体库匹配,得到各主体库;判断各所述主体库是否一致;若是,则根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作;若否,则根据各所述目标关键要素进行主体库生成操作,并将所述目标数据输入至生成的主体库。在本专利技术的一种具体实施方式中,在根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作,或将所述目标数据输入至生成的主体库之前,还包括:获取所述目标数据的目标来源渠道;判断所述目标来源渠道是否属于预设可信渠道集;若是,则执行所述根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作,或所述将所述目标数据输入至生成的主体库的步骤。在本专利技术的一种具体实施方式中,当确定各所述主体库不一致且所述目标来源渠道不属于预设可信渠道集时,还包括:将所述目标数据确定为字段缺失数据或脏数据。在本专利技术的一种具体实施方式中,在将所述目标数据确定为字段缺失数据或脏数据之后,还包括:根据所述目标数据维度利用网络爬虫技术从所述目标来源渠道中爬取更新后数据;将所述更新后数据确定为所述目标数据,并执行所述对所述目标数据进行关键信息提取的步骤。在本专利技术的一种具体实施方式中,根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作,包括:判断匹配到的主体库中是否存在所述目标数据维度对应的已入库数据;若是,则利用所述目标数据替换所述已入库数据;若否,则将所述目标数据输入至匹配到的主体库。在本专利技术的一种具体实施方式中,根据各所述目标关键要素进行主体库生成操作,包括:利用UUID算法根据各所述目标关键要素进行主体库生成操作。在本专利技术的一种具体实施方式中,在根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作,或将所述目标数据输入至生成的主体库之后,还包括:获取所述目标数据进入的主体库的目标标识信息;将所述目标标识信息设置为所述目标数据的数据标签。一种数据入库装置,包括:请求解析模块,用于对接收到的数据入库请求进行解析,得到待入库的目标数据和所述目标数据对应的目标数据维度;要素获得模块,用于对所述目标数据进行关键信息提取,得到各目标关键要素;主体库匹配模块,用于分别利用各所述目标关键要素进行主体库匹配,得到各主体库;第一判断模块,用于判断各所述主体库是否一致;主体库更新模块,用于当确定各所述主体库一致时,根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作;数据入库模块,用于当确定各所述主体库不一致时,根据各所述目标关键要素进行主体库生成操作,并将所述目标数据输入至生成的主体库。一种数据入库设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如前所述数据入库方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述数据入库方法的步骤。本专利技术所提供的数据入库方法,对接收到的数据入库请求进行解析,得到待入库的目标数据和目标数据对应的目标数据维度;对目标数据进行关键信息提取,得到各目标关键要素;分别利用各目标关键要素进行主体库匹配,得到各主体库;判断各主体库是否一致;若是,则根据目标数据维度利用目标数据对匹配到的主体库进行更新操作;若否,则根据各目标关键要素进行主体库生成操作,并将目标数据输入至生成的主体库。由上述技术方案可知,通过提取待入库的目标数据的各目标关键要素,根据各目标关键要素进行主体库匹配,当各目标关键要素匹配得到的各主体库一致时,根据目标数据对应的目标数据维度对匹配得到的主体库进行更新操作;当各目标关键要素匹配得到的各主体库不一致时,生成主体库,将目标数据直接输入至生成的主体库。从而确定出目标数据所属的主体库,避免了数据重复问题,较大地提高了数据入库的准确性,提高了其他维度数据进行信息关联的正确性。相应的,本专利技术还提供了与上述数据入库方法相对应的数据入库装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中数据入库方法的一种实施流程图;图2为本专利技术实施例中数据入库方法的另一种实施流程图;图3为本专利技术实施例中一种数据入库装置的结构框图;图4为本专利技术实施例中一种数据入库设备的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:参见图1,图1为本专利技术实施例中数据入库方法的一种实施流程图,该方法可以包括以下步骤:S101:对接收到的数据入库请求进行解析,得到待入库的目标数据和目标数据对应的本文档来自技高网
...

【技术保护点】
1.一种数据入库方法,其特征在于,包括:/n对接收到的数据入库请求进行解析,得到待入库的目标数据和所述目标数据对应的目标数据维度;/n对所述目标数据进行关键信息提取,得到各目标关键要素;/n分别利用各所述目标关键要素进行主体库匹配,得到各主体库;/n判断各所述主体库是否一致;/n若是,则根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作;/n若否,则根据各所述目标关键要素进行主体库生成操作,并将所述目标数据输入至生成的主体库。/n

【技术特征摘要】
1.一种数据入库方法,其特征在于,包括:
对接收到的数据入库请求进行解析,得到待入库的目标数据和所述目标数据对应的目标数据维度;
对所述目标数据进行关键信息提取,得到各目标关键要素;
分别利用各所述目标关键要素进行主体库匹配,得到各主体库;
判断各所述主体库是否一致;
若是,则根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作;
若否,则根据各所述目标关键要素进行主体库生成操作,并将所述目标数据输入至生成的主体库。


2.根据权利要求1所述的数据入库方法,其特征在于,在根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作,或将所述目标数据输入至生成的主体库之前,还包括:
获取所述目标数据的目标来源渠道;
判断所述目标来源渠道是否属于预设可信渠道集;
若是,则执行所述根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作,或所述将所述目标数据输入至生成的主体库的步骤。


3.根据权利要求2所述的数据入库方法,其特征在于,当确定各所述主体库不一致且所述目标来源渠道不属于预设可信渠道集时,还包括:
将所述目标数据确定为字段缺失数据或脏数据。


4.根据权利要求3所述的数据入库方法,其特征在于,在将所述目标数据确定为字段缺失数据或脏数据之后,还包括:
根据所述目标数据维度利用网络爬虫技术从所述目标来源渠道中爬取更新后数据;
将所述更新后数据确定为所述目标数据,并执行所述对所述目标数据进行关键信息提取的步骤。


5.根据权利要求1至4任一项所述的数据入库方法,其特征在于,根据所述目标数据维度利用所述目标数据对匹配到的主体库进行更新操作,包括:
判断匹配到的主体库中是否存在所述目标数据维度对应的已入库数据...

【专利技术属性】
技术研发人员:聂超庞明杰
申请(专利权)人:上海微盟企业发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1