一种数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26259232 阅读:16 留言:0更新日期:2020-11-06 17:53
本发明专利技术公开了一种方法、装置、计算机设备及存储介质,该方法包括:利用数据同步工具将数据仓库确定的待处理数据同步至数据库;利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件;从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据,并将所述图库数据写入目标图数据库。本发明专利技术通过图数据库来存储图谱关系的大数据,实现数据的及时更新,从而实现近实时的图谱关系数据在线查找,并且提升在多变的业务场景中的扩展性和性能。

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备及存储介质
本专利技术涉及数据处理
,特别涉及一种数据处理方法、装置、计算机设备及存储介质。
技术介绍
随着互联网的广泛应用,推动着人工智能的不断发展。人工智能极大的提高了社会生产效率,将人们从繁重的重复劳动中解放出来。人工智能所依赖的知识图谱越来越受到各行各业的关注。然而要构建一个行业或者业务场景的完善的知识图谱,则需要存储庞大的数据量以及数据之间的关系数据。在大数据领域,知识图谱的底层数据平台的构建方案,目前一般都是采用neo4j图库,但是neo4j不支持分布式计算和存储,所以,一方面,在数据量很大的时候,存储上会达到单台机器的上限。另一方面,在多维度查询的时候计算上会受限于单台机器的资源。虽然改用DGraph分布式原生图数据库可以解决分布式问题、单机磁盘存储问题和查询计算的性能问题等,但是,目前现有技术中并没有用于处理增量数据导入的相关工具,因此并不能解决增量数据导入的问题。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种数据处理方法、装置、计算机设备以及存储介质,以克服现有技术中没有用于处理增量数据导入的相关工具,不能解决增量数据导入等问题。为解决上述一个或多个技术问题,本专利技术采用的技术方案是:第一方面,提供了一种数据处理方法,该方法包括如下步骤:利用数据同步工具将数据仓库确定的待处理数据同步至数据库;利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件;从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据,并将所述图库数据写入目标图数据库。进一步的,所述待处理数据包括增量数据,所述方法还包括数据仓库确定待处理数据的过程,包括:接收业务数据,将所述业务数据与对应的原数据进行比较,确定出增量数据。进一步的,所述业务数据至少包括业务方录入的数据、利用爬虫技术获取的数据以及从其他数据源获取的数据中的一种。进一步的,所述利用数据同步工具将数据仓库确定的待处理数据同步至数据库:利用数据同步工具定时抽取所述数据仓库中的待处理数据,按照预设数据模型对所述待处理数据进行清洗,将清洗后的待处理数据写进数据库对应的数据表中。进一步的,所述利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件包括:预设工具向所述数据库发送数据请求,接收所述数据库根据所述数据请求返回的待处理数据,将所述待处理数据推送至消息中间件。进一步的,所述将所述图库数据写入目标图数据库包括:获取所述目标图数据库中所有可用机器信息,根据预设规则确定执行所述图库数据的写入操作的目标机器。第二方面,提供了一种数据处理装置,所述装置包括:数据同步模块,用于利用数据同步工具将数据仓库确定的待处理数据同步至数据库;数据转发模块,用于利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件;数据转换模块,用于从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据;数据写入模块,用于将所述图库数据写入目标图数据库。进一步的,所述装置还包括:数据比较模块,用于接收业务数据,将所述业务数据与对应的原数据进行比较,确定出增量数据。第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:利用数据同步工具将数据仓库确定的待处理数据同步至数据库;利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件;从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据,并将所述图库数据写入目标图数据库。第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:利用数据同步工具将数据仓库确定的待处理数据同步至数据库;利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件;从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据,并将所述图库数据写入目标图数据库。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例提供的数据处理方法、装置、计算机设备及存储介质,通过利用数据同步工具将数据仓库确定的待处理数据同步至数据库,利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件,从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据,并将所述图库数据写入目标图数据库,实现数据的及时更新,从而实现近实时的图谱关系数据在线查找,并且提升在多变的业务场景中的扩展性和性能。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据一示例性实施例示出的待处理数据处理入图数据库的示意图;图2是根据一示例性实施例示出的获取待处理数据的示意图;图3是根据一示例性实施例示出的数据处理方法的流程图;图4是根据一示例性实施例示出的数据处理装置的结构示意图;图5是根据一示例性实施例示出的计算机设备的内部结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前各行业内的知识图谱的数据平台,其主要有如下需求点:(1)大数据量,分布式计算,分布式存储(2)动态增量数据更新的实时性(3)贴近业务场景的算法处理,数据聚合实施例一具体的,针对以上需求点,参照图1所示,本专利技术的方案的可通过如下步骤实现:步骤一、利用数据同步工具将数据仓库确定的待处理数据同步至数据库。具体的,本专利技术实施例中,将各个业务场景下产生的业务数据先存储至数据仓库(如hive)中,通过数据仓库确定出各个业务数据对应的增量数据作为待处理数据,然后利用数据同步工具将该待处理数据同步至数据库中,其中数据库包括但不限于Mysql等关系型数据库。数据同步工具包括但不限于ETL工具,ETL,是用来描述将数据从来源端(本方明实施例中包括但不限于数据仓库)经过抽取(extract)、转换(transform)、加载(load)至目标端(本方明实施例中包括但不限于数据库)的过程。ETL较常用在数据仓库,但其对象并不限于数据仓库。具本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括如下步骤:/n利用数据同步工具将数据仓库确定的待处理数据同步至数据库;/n利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件;/n从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据,并将所述图库数据写入目标图数据库。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括如下步骤:
利用数据同步工具将数据仓库确定的待处理数据同步至数据库;
利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件;
从所述消息中间件获取所述待处理数据,根据图谱关系将所述待处理数据转换成目标格式的图库数据,并将所述图库数据写入目标图数据库。


2.根据权利要求1所述的数据处理方法,其特征在于,所述待处理数据包括增量数据,所述方法还包括数据仓库确定待处理数据的过程,包括:
接收业务数据,将所述业务数据与对应的原数据进行比较,确定出增量数据。


3.根据权利要求2所述的数据处理方法,其特征在于,所述业务数据至少包括业务方录入的数据、利用爬虫技术获取的数据以及从其他数据源获取的数据中的一种。


4.根据权利要求1或2所述的数据处理方法,其特征在于,所述利用数据同步工具将数据仓库确定的待处理数据同步至数据库包括:
利用数据同步工具定时抽取所述数据仓库中的待处理数据,按照预设数据模型对所述待处理数据进行清洗,将清洗后的待处理数据写进数据库对应的数据表中。


5.根据权利要求1或2所述的数据处理方法,其特征在于,所述利用预设工具从所述数据库中获取所述待处理数据并推送至消息中间件包括:
预设工具向所述数据库发送数据请求,接收所述数据库根据所述数据...

【专利技术属性】
技术研发人员:曹牧年徐志欣李国海
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1