【技术实现步骤摘要】
一种基于大数据技术的全球智库数据开发与组织方法
本专利技术涉及数据开发与组织
,尤其涉及一种基于大数据技术的全球智库数据开发与组织方法。
技术介绍
在数字图书行业的数据库厂商中,目前主流的数据获取主要是通过扫描录入、成品购买等方式,该方式数据获取成本较高;在数据组织方式上大多以文献的方式进行组织,比较单一、不够灵活;在数据处理与挖掘方面主要针对的是结构化数据,非结构化数据在处理与挖掘时比较困难;在可视化展示方面,没有体现大数据的特点,展示方式不直观。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足,提供一种基于大数据技术的全球智库数据开发与组织方法。本专利技术提供了一种基于大数据技术的全球智库数据开发与组织方法,所述方法包括下述步骤:根据智库机构、智库动态、研究专家、研究成果,通过Web信息采集系统对智库的数据进行自动化采集,并形成不同的字段信息;通过对字段的定义和所描述对象的属性,并以关系型数据库建立的表结构为基础,形成一批相同类型的数据,对该类数据进行组织;进而创建数据体之间的关系;根据数据体之间的关系,将数据主要分为结构化数据、半结构化数据和非结构化数据,通过大数据处理技术,对这些数据进行预处理,所述预处理包括数据清洗、数据集成、数据变换以及数据归约,使其成为有用的成品数据;通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系,让同类型的资源集中展示,深度挖掘出同类型资源的聚集效应,从大量的数据中找出隐藏的信息;通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛 ...
【技术保护点】
1.一种基于大数据技术的全球智库数据开发与组织方法,其特征在于,所述方法包括如下步骤:根据智库机构、智库动态、研究专家、研究成果,通过Web信息采集系统对智库的数据进行自动化采集,并形成不同的字段信息;通过对字段的定义和所描述对象的属性,并以关系型数据库建立的表结构为基础,形成一批相同类型的数据,对该类数据进行组织;进而创建数据体之间的关系;根据数据体之间的关系,将数据主要分为结构化数据、半结构化数据和非结构化数据,通过大数据处理技术,对这些数据进行预处理,所述预处理包括数据清洗、数据集成、数据变换以及数据归约,使其成为有用的成品数据;通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系,让同类型的资源集中展示,深度挖掘出同类型资源的聚集效应,从大量的数据中找出隐藏的信息;通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛选大量的数据,完成数据分析。
【技术特征摘要】
1.一种基于大数据技术的全球智库数据开发与组织方法,其特征在于,所述方法包括如下步骤:根据智库机构、智库动态、研究专家、研究成果,通过Web信息采集系统对智库的数据进行自动化采集,并形成不同的字段信息;通过对字段的定义和所描述对象的属性,并以关系型数据库建立的表结构为基础,形成一批相同类型的数据,对该类数据进行组织;进而创建数据体之间的关系;根据数据体之间的关系,将数据主要分为结构化数据、半结构化数据和非结构化数据,通过大数据处理技术,对这些数据进行预处理,所述预处理包括数据清洗、数据集成、数据变换以及数据归约,使其成为有用的成品数据;通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系,让同类型的资源集中展示,深度挖掘出同类型资源的聚集效应,从大量的数据中找出隐藏的信息;通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛选大量的数据,完成数据分析。2.根据权利要求1所述的方法,其特征在于,所述智库机构的字段信息包括智库名称、智库排名、智库简介、所属成果、所属专家、联系方式;所述智库动态的字段信息包括标题、日期、正文、图片、作者、来源、地址;所述研究专家的字段信息包括姓名、照片、所属机构、职务、职称、个人简历、研究领域、研究成果;所述研究成果的字段信息包括标题、日期、作者、所属机构、成果类型、关键词、摘要、全文。3.根据权利要求1所述的方法,其特征在于,进而创建数据体之间的关系,包括:研究专家关联到智库机构,智库动态关联到智库机构,研究成果关联到对应专家,形成完整的关系网络。4.根据权利要求1所述的方法,其特征在于,所述数据清洗的步骤包括:数据分析、定义清洗规则、执行清洗规则以及清洗结果验证;所述数据分析通过相关知识,应用统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础;所述定义清洗规则包括空值的检查和处理,非法值的检测和处理,不一致数据的检测和处理,相似重复记录的检测和处理;所述执行清洗规则通过检查拼写错误,去掉重复的记录,补上不完全的记录,解决不一致的记录;所述清洗结果验证通过对定义的清洗转换规则的正确性和效率进行验证和评估,当不满足清洗要求时,对清洗规则或系统参数进行调整和改进。5.根据权利要求1所述的方法,其特征在于,所述数据集成包括:收集所述数据清洗后的数据,根据众多不同智库数据的来源,对智库机构、研究专家、成果类型建立统一的数据仓库,每个仓库存储对应数据,从而实现数据的集成;通过在数据集成前进行调研,确认每个字段的实际意义,避免被不规范的命名误导,从而解决字段意义问题;通过在数据集成的过程中尽量明确数据字段结构,确定字段的基本属性,在后续进行数据集成时,通过上表对数据格式进行约束,避免因格式不同对集成带来的困扰,从而解决字段结构问题;通过检测字段的相关性,侦察到数据冗余,从而解决字段冗余问题;通过调研定义主键,或者对...
【专利技术属性】
技术研发人员:姜开学,邓代海,魏姚,
申请(专利权)人:重庆尚唯信息技术有限公司,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。