数据资源地图的构建方法及装置、存储介质、终端制造方法及图纸

技术编号:24168708 阅读:17 留言:0更新日期:2020-05-16 02:15
一种数据资源地图的构建方法及装置、存储介质、终端,所述方法包括:接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;根据数据交易品需求确定政务数据源以及开放数据源;对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;根据订单明细需求确定交易数据源;对所述交易数据源进行抽取,并构建交易数据知识图谱;对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。本发明专利技术方案可以使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源。

【技术实现步骤摘要】
数据资源地图的构建方法及装置、存储介质、终端
本专利技术涉及数据处理领域,尤其涉及一种数据资源地图的构建方法及装置、存储介质、终端。
技术介绍
在数据处理领域,经常存在数据供方作为对数据进行处理的主体,向他人(如数据需方)提供数据的行为,可以包括与他人分享、互换、提供复本等行为,其中,所述数据是经过合法生成、采集、取得的。数据供方为提供数据的主体,又称为数据提供人,数据需方为接受数据主体,又称为数据接受人。随着数据需方的需求呈现出多元化、深层化的趋势,亟需一种数据资源地图的构建方法,使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源。
技术实现思路
本专利技术解决的技术问题是如何提供一种数据资源地图的构建方法及装置、存储介质、终端,以使数据需方在提出订单需求后,有机会获得更加丰富、灵活的数据资源。为解决上述技术问题,本专利技术实施例提供一种数据资源地图的构建方法,包括以下步骤:接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;根据所述数据交易品需求确定政务数据源以及开放数据源;对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;根据所述订单明细需求确定交易数据源;对所述交易数据源进行抽取,并构建交易数据知识图谱;对所述资源知识图谱以及所述交易数据知识图谱进行存储,以得到所述数据资源地图。可选的,所述数据交易品需求包括数据交易品的概括类别信息;根据数据交易品需求确定政务数据源以及开放数据源包括:根据数据交易品的概括类别信息,采集所述数据交易品涉及的地区信息和行业信息,以作为所述政务数据源;根据数据交易品的概括类别信息,采集所述数据交易品涉及的机构信息、类目信息、所述数据交易品挂载的互联对象,以作为所述开放数据源。可选的,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据;对所述政务图谱实体数据进行关系抽取,以得到政务图谱实体关系,对所述开放图谱实体数据进行关系抽取,以得到开放图谱实体关系;将所述政务图谱实体数据与所述政务图谱实体关系导入数据库,以构建政务知识图谱,将所述开放图谱实体数据与所述开放图谱实体关系导入数据库,以构建开放知识图谱,其中,所述资源知识图谱包括所述政务知识图谱与所述开放知识图谱。可选的,所述政务知识图谱包括以下一项或多项:类目、交易品、机构;所述开放知识图谱包括以下一项或多项:地区、行业。可选的,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据,对所述政务图谱实体数据与所述开放图谱实体数据进行整合,以得到图谱实体数据;对所述图谱实体数据进行关系抽取,以得到图谱实体关系;将所述图谱实体数据与所述图谱实体关系导入数据库以构建所述资源知识图谱。可选的,采用Excel数据提取方式,对所述政务数据源进行第一数据提取;和/或,采用数据库数据提取方式,对所述开放数据源进行第二数据提取。可选的,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述资源知识图谱。可选的,所述文件解析器为PDF文件解析器;采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:采用Camelot库,识别PDF文档中特定页的表格;将从每页识别出的表格拼接成单张适合导入Excel的完整表格。可选的,所述订单明细需求包括需方、数据交易品的概括类别信息、订单明细信息;根据订单明细需求确定交易数据源包括:根据所述需方,采集需方所属的会员机构;根据所述数据交易品的概括类别信息,采集所述数据交易品挂载的互联对象、所述互联对象的互联对象条件;根据所述订单明细信息,采集所述数据交易品的订单明细参数;根据所述订单明细信息,采集所述数据交易品的工单路由以及工单信息、供方信息。可选的,对所述交易数据源进行抽取,并构建交易数据知识图谱包括:对所述交易数据源进行第三数据提取,以得到交易数据提取层数据;对所述交易数据提取层数据进行实体抽取,以得到交易图谱实体数据;对所述交易图谱实体数据进行关系抽取,以得到交易图谱实体关系;将所述交易图谱实体数据与所述交易图谱实体关系导入数据库以构建所述交易知识图谱。可选的,所述交易数据知识图谱包括以下一项或多项:需方、会员机构、数据交易品、互联对象、互连对象条件、订单明细参数、工单路由、工单、订单。可选的,采用数据库数据提取方式,对所述交易数据源进行第三数据提取。可选的,对所述交易数据源进行抽取,并构建交易数据知识图谱包括:采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述交易知识图谱。可选的,所述文件解析器为PDF文件解析器;采用文件解析器对所述交易数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:采用Camelot库,识别PDF文档中特定页的表格;将从每页识别出的表格拼接成单张适合导入Excel的完整表格。可选的,在对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图之前,所述的数据资源地图的构建方法还包括:对所述资源知识图谱以及交易数据知识图谱进行管理操作,以得到更新后的资源知识图谱以及交易数据知识图谱;其中,所述管理操作包括:新增操作、删除操作、属性名变更操作、查找操作。为解决上述技术问题,本专利技术实施例提供一种数据资源地图的构建装置,包括:订单接收模块,适于接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;第一数据源确定模块,适于根据数据交易品需求确定政务数据源以及开放数据源;第一知识图谱构建模块,适于对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;第二数据源确定模块,适于根据订单明细需求确定交易数据源;第二知识图谱构建模块,适于对所述交易数据源进行抽取,并构建交易数据知识图谱;资源地图获取模块,适于对所述资源知识图谱以及交易数据知识图谱进行存储,以得到所述数据资源地图。为解决上述技术问题,本专利技术实施例提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述数据资源地图的构建方法的步骤。为解决上述技术问题,本专利技术实施例提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算本文档来自技高网...

【技术保护点】
1.一种数据资源地图的构建方法,其特征在于,包括以下步骤:/n接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;/n根据所述数据交易品需求确定政务数据源以及开放数据源;/n对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;/n根据所述订单明细需求确定交易数据源;/n对所述交易数据源进行抽取,并构建交易数据知识图谱;/n对所述资源知识图谱以及所述交易数据知识图谱进行存储,以得到所述数据资源地图。/n

【技术特征摘要】
1.一种数据资源地图的构建方法,其特征在于,包括以下步骤:
接收数据需方的订单信息,所述订单信息包括数据交易品需求以及订单明细需求;
根据所述数据交易品需求确定政务数据源以及开放数据源;
对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱;
根据所述订单明细需求确定交易数据源;
对所述交易数据源进行抽取,并构建交易数据知识图谱;
对所述资源知识图谱以及所述交易数据知识图谱进行存储,以得到所述数据资源地图。


2.根据权利要求1所述的数据资源地图的构建方法,其特征在于,所述数据交易品需求包括数据交易品的概括类别信息;
根据数据交易品需求确定政务数据源以及开放数据源包括:
根据数据交易品的概括类别信息,采集所述数据交易品涉及的地区信息和行业信息,以作为所述政务数据源;
根据数据交易品的概括类别信息,采集所述数据交易品涉及的机构信息、类目信息、所述数据交易品挂载的互联对象,以作为所述开放数据源。


3.根据权利要求2所述的数据资源地图的构建方法,其特征在于,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:
对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;
对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据;
对所述政务图谱实体数据进行关系抽取,以得到政务图谱实体关系,对所述开放图谱实体数据进行关系抽取,以得到开放图谱实体关系;
将所述政务图谱实体数据与所述政务图谱实体关系导入数据库,以构建政务知识图谱,将所述开放图谱实体数据与所述开放图谱实体关系导入数据库,以构建开放知识图谱,其中,所述资源知识图谱包括所述政务知识图谱与所述开放知识图谱。


4.根据权利要求3所述的数据资源地图的构建方法,其特征在于,
所述政务知识图谱包括以下一项或多项:类目、交易品、机构;
所述开放知识图谱包括以下一项或多项:地区、行业。


5.根据权利要求2所述的数据资源地图的构建方法,其特征在于,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:
对所述政务数据源进行第一数据提取,以得到政务数据提取层数据,对所述开放数据源进行第二数据提取,以得到开放数据提取层数据;
对所述政务数据提取层数据进行实体抽取,以得到政务图谱实体数据,对所述开放数据提取层数据进行实体抽取,以得到开放图谱实体数据,对所述政务图谱实体数据与所述开放图谱实体数据进行整合,以得到图谱实体数据;
对所述图谱实体数据进行关系抽取,以得到图谱实体关系;
将所述图谱实体数据与所述图谱实体关系导入数据库以构建所述资源知识图谱。


6.根据权利要求3或5所述的数据资源地图的构建方法,其特征在于,
采用Excel数据提取方式,对所述政务数据源进行第一数据提取;
和/或,
采用数据库数据提取方式,对所述开放数据源进行第二数据提取。


7.根据权利要求2所述的数据资源地图的构建方法,其特征在于,对所述政务数据源以及开放数据源进行抽取,并构建资源知识图谱包括:
采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格;
对所述表格提取有效字段,并导入预设数据库进行存储,以得到所述资源知识图谱。


8.根据权利要求7所述的数据资源地图的构建方法,其特征在于,所述文件解析器为PDF文件解析器;
采用文件解析器对所述政务数据源以及开放数据源进行结构化数据抽取,并将抽取出的数据拼接成表格包括:
采用Camelot库,识别PDF文档中特定页的表格;
将从每页识...

【专利技术属性】
技术研发人员:汤奇峰蒋宇一郭泽卿
申请(专利权)人:上海数据交易中心有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1