一种基于图网络的数据处理系统技术方案

技术编号:25270912 阅读:15 留言:0更新日期:2020-08-14 23:04
本发明专利技术实施例公开了一种基于图网络的数据处理系统,所述基于图网络的数据处理系统包括:数据收集装置,利用爬虫技术从公开网页中爬取各个个体的基本信息,所述基本信息包括非结构化信息,并存储于数据库;图网络构建装置,从所述数据库中抽取信息,并以一个个体为一个节点构建图网络,连接具有关联关系的节点,所述非结构化信息作为节点的若干个属性,并将每个属性编码为属性向量,得到若干个属性向量。通过本发明专利技术系统构建的图网络,在基于图网络的应用时,可以引入更多的属性信息,因此可以提高计算结果的准确度。

【技术实现步骤摘要】
一种基于图网络的数据处理系统
本专利技术属于大数据
,具体的,本专利技术涉及一种基于图网络的数据处理系统。
技术介绍
企业在经营过程中不可能是独立存在的,必然会与其他企业或个人或组织产生关联关系,建立企业之间的相互关系,在后续应用分析时不仅可以基于企业本身的数据,还可基于具有关联关系的企业的数据,进而可以提高分析结果的准确性。目前建立企业间的相互关系的方法是建立企业的关系网络图(或称为企业的知识图谱,或图网络),也就是图中的每一个节点为一个企业,将具有关联关系的节点连接构成边,更完善的处理是在每条边上展示出具体关系,以及将企业在经营活动中产生的全部或部分数据展示在节点上。然而,通过这种方式构建的图网络存在一定的技术缺陷,例如,各个节点所具有的数据都是以信息的形式展示在节点上,应用图网络进行相应计算时,这些数据很难参与运算,尤其是非结构化数据(例如企业介绍、产品图片、财务报表等),继而使得计算结果的准确度有限。
技术实现思路
本专利技术的目的是解决如何使非结构化数据可以参与图计算,进而提高计算结果的准确性的技术问题,为此,提供了一种基于图网络的数据处理系统。为了达到上述目的,本申请的实施例所采用的技术方案如下:一种基于图网络的数据处理系统,所述基于图网络的数据处理系统包括:数据收集装置,利用爬虫技术从公开网页中爬取各个个体的基本信息,所述基本信息包括非结构化信息,并存储于数据库;图网络构建装置,从所述数据库中抽取信息,并以一个个体为一个节点构建图网络,连接具有关联关系的节点,所述非结构化信息作为节点的若干个属性,并将每个属性编码为属性向量,得到若干个属性向量。上述方案中,数据收集装置利用爬虫技术可以从公开网页中获取各个个体的基本信息,然后图网络构建装置以个体为节点,以个体的基本信息作为节点的属性,构建由各个企业节点组成的图网络,用图网络来表征(表达)企业及企业间的关系。针对于非结构化信息,通过将其编码为向量,以向量的形式表征,基于图网络的应用时,向量可以参与计算,进而实现了将非结构化信息参与图计算的目的,因此可以提高计算结果的准确性。所述基本信息中还包括结构化信息,所述结构化信息作为节点的若干个属性,所述图网络构建装置还用于将所述结构化信息编码为属性向量。结构化信息例如是注册资本、性别、行业等属性,针对于结构化的信息,传统方法可能是直接展示,或者是以表格的形式展示,这些结构信息在图计算时可能会被引入,也可能不会被引入。上述方案中,通过将结构化信息也编码为向量的形式表征,因此在图计算时可以保障这些信息都可以被引入而参与计算。另外,通过编码成向量的形式参与计算,相比于直接以原数据(如性别)参与计算,可以简化后期的计算量,进而提高处理效率。也就是说,本方案可以解决如何提高图网络计算时的处理效率的技术问题。即是说,用户终端要应用时,可以直接基于该图网络进行相应的图计算,由于计算时直接是基于表征向量进行,因此可以极大简化应用终端的运算过程,不仅可以提高处理效率,而且可以降低应用终端的硬件性能,继而降低硬件成本,对于大数据应用,这是非常具有积极意义的。所述图网络构建装置将若干个属性中指定的属性编码为属性向量。基于应用的不同,并非是需要利用所有的属性,因此根据具体应用,选择性地对指定的部分属性进行编码,可以避免非必要属性对编码结果的干扰,还可以提高编码效率,即解决了如何进一步提高编码效率和编码结果准确性的问题。例如,对于期企业网址的属性,在一般的图网络应用中,都不会使用到这个属性,因此,可以不将该属性编码为向量,如此就可以简化编码时的运算量,提高编码效率。所述图网络构建装置通过预先训练好的属性编码器对属性进行编码,编码为表征向量。通过预先训练好的属性编码器对相应的属性进行编码,然后在图网络模型训练过程中再根据应用目的调整属性编码结果,相比于每次根据应用目的而针对性地建模并得到属性的表征向量的方式,此种方式更具有普遍适用性,也可以加快编码效率。所述基本信息包括个体标识和经营活动信息,所述数据收集装置将所述个体标识和经营活动信息建立关联关系后再存储。数据收集装置从一个或多个网页中爬取到信息后,可以直接存储,但是这样会不利于快速查找。本方案中,通过将个体标识和经营活动信息建立关联关系后再存储,可以以个体标识为ID建立目录,更有利于快速查找所需的数据,即解决如何快速查找数据的问题。还包括若干个应用终端,所述应用终端从图网络构建装置中获取构建的图网络,以便于基于所述图网络执行指定任务的计算。与现有技术相比,本公开的实施例具有以下有益效果:(1)通过通过将非结构化信息以向量的形式表征,基于图网络计算时可以引入这些属性特征,进而提高计算结果的准确性。(2)相比于基于原始数据的计算,通过将节点数据转换为向量的形式表达,基于向量的计算,极大地降低了基于图网络的运算量,进而提高了处理效率。(3)由于可以极大地降低运算量,进而可以降低对用户终端的硬件性能要求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的实施例中基于图网络的数据处理系统的结构图。图2为采用BERT模型对企业介绍属性进行编码的示意图。图3为采用imageNet预训练好的VGG16网络对图片属性进行编码的示意图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。请参阅图1,本实施例中提供的基于图网络的数据处理系统包括数据收集装置10、图网络构建装置20和若干个应用终端30,数据收集装置10、图网络构建装置20和应用终端30之间相互可以进行数据交互。例如,数据收集装置收集数据后可以供图网络构建装置使用,以构建图网络,应用终端则可以从图网络构建装置中直接获取其构建的图网络,进而进行相应的计算应用。容易理解的,应用终端是基于应用而言的,如果仅基于前期的数据处理,所述基于图网络的数据处理系统也可以仅包括数据收集装置和图网络构建装置。数据收集装置、图网络构建装置和应用终端都可以是服务器、平板电脑、笔记本电脑或者台式电脑等设备,甚至是具有较强处理能力的掌上电脑、智能手机等设备。更具体地,数据收集装置利用爬虫技术从公开网页中爬取各个个体的基本信息,并存储于数据库。数据收集装置爬取到数据后,可以直接存入数据库,但是这样可能不利于后期图网络构建装置的数据调取,因此更优本文档来自技高网
...

【技术保护点】
1.一种基于图网络的数据处理系统,其特征在于,所述基于图网络的数据处理系统包括:/n数据收集装置,利用爬虫技术从公开网页中爬取各个个体的基本信息,所述基本信息包括非结构化信息,并存储于数据库;/n图网络构建装置,从所述数据库中抽取信息,并以一个个体为一个节点构建图网络,连接具有关联关系的节点,所述非结构化信息作为节点的若干个属性,并将每个属性编码为属性向量,得到若干个属性向量。/n

【技术特征摘要】
1.一种基于图网络的数据处理系统,其特征在于,所述基于图网络的数据处理系统包括:
数据收集装置,利用爬虫技术从公开网页中爬取各个个体的基本信息,所述基本信息包括非结构化信息,并存储于数据库;
图网络构建装置,从所述数据库中抽取信息,并以一个个体为一个节点构建图网络,连接具有关联关系的节点,所述非结构化信息作为节点的若干个属性,并将每个属性编码为属性向量,得到若干个属性向量。


2.根据权利要求1所述的基于图网络的数据处理系统,其特征在于,所述基本信息中还包括结构化信息,所述结构化信息作为节点的若干个属性,所述图网络构建装置还用于将所述结构化信息编码为属性向量。


3.根据权利要求1或2所述的...

【专利技术属性】
技术研发人员:张学锋刘世林康青杨韩远吴桐曾途
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1