开放数据的检索方法及装置、存储介质、服务器制造方法及图纸

技术编号:24289838 阅读:24 留言:0更新日期:2020-05-26 20:07
一种开放数据的检索方法及装置、存储介质、服务器,所述方法包括:接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方;在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据,以得到所述检索请求对应的检索结果;其中,所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取,并经过数据去重和数据清洗后得到的。本发明专利技术提供的技术方案可以基于构建的开放数据平台进行数据检索,使用户可以从该开放数据平台直接查询各个已收录的开放数据资源,提高用户获取数据集的效率和体验。

Open data retrieval methods and devices, storage media, servers

【技术实现步骤摘要】
开放数据的检索方法及装置、存储介质、服务器
本专利技术涉及大数据
,具体地涉及一种开放数据的检索方法及装置、存储介质、服务器。
技术介绍
大数据已经被广泛认为是一种战略性的新型资源。人们用大数据定义当今时代产生的海量数据以及相关的技术发展与服务创新。数据流通是大数据产生社会价值和商业价值的基础,也是大数据技术研发、应用创新和产业发展的基础。当前大量数据沉睡在各个机构和企业的服务器中,形成了数据割裂,大数据应用普遍面临着“数据孤岛”问题,制约了大数据价值的获取和效益的产生。2012年始,我国北京、上海、广州、武汉、杭州等地先后建立了政府数据开放服务网。从全球范围来看,建立统一的政府开放数据门户,集中开放可加工的数据集已是各国数据门户网站的普遍做法。然而,现如今大规模数据样本集的采集、融合、试验在国内尚未见到,该平台的理念和建设有助于建立面向真实场景的巨量数据交换、共享、融合和分析,支撑数据驱动的智慧城市、社会治理等的建设。因此,构建开放式的数据平台,并基于开放式的数据平台为用户提供全面、快速的检索结果值得进一步分析和研究。
技术实现思路
本专利技术解决的技术问题是如何检索开放数据,以提高用户获取开放数据的效率和体验。为解决上述技术问题,本专利技术实施例提供一种开放数据的检索方法,包括:接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方;在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据,以得到所述检索请求对应的检索结果;其中,所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取,并经过数据去重和数据清洗后得到的。可选的,在开放数据平台中搜索所述数据来源方和所述数据领域中的数据之前,所述检索方法还包括:接收所述用户指定的文件格式;所述在开放数据平台中全文搜索所述数据来源方和所述数据领域中的数据包括:从所述开放数据平台中全文检索匹配所述文件格式、符合所述数据来源方和所述数据领域的数据,以得到所述检索请求对应的检索结果。可选的,所述数据包括以下一项或多项:行业数据集名称、政务数据集名称。可选的,所述检索方法还包括:输出所述检索结果,所述检索结果包括以下一项或多项:元数据、数据集。可选的,所述开放数据平台还定时获取所述预设政务公开数据开放网站和行业数据集网站中的更新数据。可选的,在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据之前,所述检索方法还包括:按照分词算法对清洗后的数据进行分词,以得到分词数据;根据分词词义确定所述分词数据所属的预设数据领域;整合属于同一所述预设数据领域的分词数据;为所述分词数据建立索引,以全文检索所述开放数据平台中的数据。可选的,所述按照分词算法对清洗后的数据进行分词包括:响应于语言类别指示,确定所述清洗后的数据所属的语言类别;根据所述语言类别关联的预设分词算法,对所述清洗后的数据进行分词。为解决上述技术问题,本专利技术实施例还提供一种开放数据的检索装置,包括:第一接收模块,用于接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方;检索模块,用于在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据,以得到所述检索请求对应的检索结果;其中,所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取,并经过数据去重和数据清洗后得到的。为解决上述技术问题,本专利技术实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述方法的步骤。为解决上述技术问题,本专利技术实施例还提供一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术实施例提供一种开放数据的检索方法,包括:接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方;在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据,以得到所述检索请求对应的检索结果;其中,所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取,并经过数据去重和数据清洗后得到的。本专利技术实施例通过对预设政务公开数据网站和预设行业数据集网站获取数据,并进行去重、清洗,从而构建了政务数据和行业数据的开放数据平台,为用户提供了针对政府开放数据和行业开放数据集的统一入口。之后,在用户选取的数据领域和数据来源方中检索,可以快速排除用户不需要的冗余信息,使得用户可以从该开放数据平台直接查询到各个已收录的开放数据资源,极大地提高了用户获取数据集的效率和体验。进一步,还包括:定时获取所述政务公开数据开放网站和行业数据集网站中的更新数据;按照所述预设数据领域对所述更新数据进行拆分,以得到多个拆分后更新数据;将属于同一所述预设数据领域的拆分后更新数据与所述合并后数据进行整合、并将整合结果存储至所述数据库中。本专利技术实施例通过定时更新数据,可以保证所述开放数据集平台的数据质量的时效性和准确性。进一步,在开放数据平台中搜索所述数据来源方和所述数据领域中的数据之前,所述检索方法还包括:接收所述用户指定的文件格式;所述在开放数据平台中全文搜索所述数据来源方和所述数据领域中的数据包括:从所述开放数据平台中全文检索匹配所述文件格式、符合所述数据来源方和所述数据领域的数据,以得到所述检索请求对应的检索结果。本专利技术实施例可以支持用户指定的文件格式的检索,可以进一步加快数据搜索结果。进一步,所述按照分词算法对清洗后的数据进行分词包括:响应于语言类别指示,确定所述清洗后的数据所属的语言类别;根据所述语言类别关联的预设分词算法,对所述清洗后的数据进行分词,以得到所述分词数据。本专利技术实施例对不同类别语言采用不同分词算法,可以更加精准地完成分词,进一步有利于为后续检索提供准确度更高的检索结果。附图说明图1是本专利技术实施例的一种开放数据的检索方法的流程示意图;图2是本专利技术实施例的一种开放数据网站前端的架构示意图;图3是本专利技术实施例的一种开放数据的数据来源与数据流转示意图;图4是本专利技术实施例的一种开放数据的检索装置的结构示意图。具体实施方式如
技术介绍
所言,数据孤岛制约了大数据价值的获取和效益的产生,而开放式数据平台有利于获取大数据价值,为用户带来更加全面、准确度更高的检索结果。本专利技术实施例提供一种开放数据的检索方法,包括:接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方;在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据,以得到所述检索请求对应的检索结果;其中,所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取,并经过数据去重和数据清洗后得到的。本专利技术实施例通过对预设政务公开数据网站和预设行业数据集网站获取数据,并进行去重、清洗,从而构建了政务数据和行业数据的开放数据平台,为用户提供了针对政府开放数据和行本文档来自技高网
...

【技术保护点】
1.一种开放数据的检索方法,其特征在于,包括:/n接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方;/n在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据,以得到所述检索请求对应的检索结果;/n其中,所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取,并经过数据去重和数据清洗后得到的。/n

【技术特征摘要】
1.一种开放数据的检索方法,其特征在于,包括:
接收用户输入的检索请求和所述用户选取的数据领域以及数据来源方;
在开放数据平台中全文检索所述数据来源方和所述数据领域中的数据,以得到所述检索请求对应的检索结果;
其中,所述开放数据平台中的数据是从预设政务公开数据开放网站和预设行业数据集网站中获取,并经过数据去重和数据清洗后得到的。


2.根据权利要求1所述的检索方法,其特征在于,在开放数据平台中搜索所述数据来源方和所述数据领域中的数据之前,所述检索方法还包括:
接收所述用户指定的文件格式;
所述在开放数据平台中全文搜索所述数据来源方和所述数据领域中的数据包括:
从所述开放数据平台中全文检索匹配所述文件格式、符合所述数据来源方和所述数据领域的数据,以得到所述检索请求对应的检索结果。


3.根据权利要求2所述的检索方法,其特征在于,所述数据包括以下一项或多项:行业数据集名称、政务数据集名称。


4.根据权利要求1或2所述的检索方法,其特征在于,还包括:
输出所述检索结果,所述检索结果包括以下一项或多项:元数据、数据集。


5.根据权利要求1所述的检索方法,其特征在于,所述开放数据平台还定时获取所述预设政务公开数据开放网站和行业数据集网站中的更新数据。


6.根据权利要求1所述的检索方法,其特征在于,在开放数据平台中全文检索所述...

【专利技术属性】
技术研发人员:汤奇峰柳汉林朱颖汤明嘉
申请(专利权)人:上海数据交易中心有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1