一种基于大数据技术的全球智库数据开发与组织方法技术

技术编号:21454016 阅读:23 留言:0更新日期:2019-06-26 04:48
本发明专利技术涉及数据开发与组织技术领域,尤其涉及一种基于大数据技术的全球智库数据开发与组织方法;方法包括如下步骤:通过Web信息采集系统对智库的数据进行自动化采集,并形成字段信息;通过对字段的定义和所描述对象的属性,形成一批相同类型的数据,对该类数据进行组织;创建数据体之间的关系;通过大数据处理技术,对这些数据进行预处理,使其成为有用的成品数据;通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系,从大量的数据中找出隐藏的信息;通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来;实现了技术的实质性提升,在先进性、新颖性、智能性、直观性等方面有着独特优势。

【技术实现步骤摘要】
一种基于大数据技术的全球智库数据开发与组织方法
本专利技术涉及数据开发与组织
,尤其涉及一种基于大数据技术的全球智库数据开发与组织方法。
技术介绍
在数字图书行业的数据库厂商中,目前主流的数据获取主要是通过扫描录入、成品购买等方式,该方式数据获取成本较高;在数据组织方式上大多以文献的方式进行组织,比较单一、不够灵活;在数据处理与挖掘方面主要针对的是结构化数据,非结构化数据在处理与挖掘时比较困难;在可视化展示方面,没有体现大数据的特点,展示方式不直观。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足,提供一种基于大数据技术的全球智库数据开发与组织方法。本专利技术提供了一种基于大数据技术的全球智库数据开发与组织方法,所述方法包括下述步骤:根据智库机构、智库动态、研究专家、研究成果,通过Web信息采集系统对智库的数据进行自动化采集,并形成不同的字段信息;通过对字段的定义和所描述对象的属性,并以关系型数据库建立的表结构为基础,形成一批相同类型的数据,对该类数据进行组织;进而创建数据体之间的关系;根据数据体之间的关系,将数据主要分为结构化数据、半结构化数据和非结构化数据,通过大数据处理技术,对这些数据进行预处理,所述预处理包括数据清洗、数据集成、数据变换以及数据归约,使其成为有用的成品数据;通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系,让同类型的资源集中展示,深度挖掘出同类型资源的聚集效应,从大量的数据中找出隐藏的信息;通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛选大量的数据,完成数据分析。可选的,所述智库机构的字段信息包括智库名称、智库排名、智库简介、所属成果、所属专家、联系方式;所述智库动态的字段信息包括标题、日期、正文、图片、作者、来源、地址;所述研究专家的字段信息包括姓名、照片、所属机构、职务、职称、个人简历、研究领域、研究成果;所述研究成果的字段信息包括标题、日期、作者、所属机构、成果类型、关键词、摘要、全文。可选的,进而创建数据体之间的关系,包括:研究专家关联到智库机构,智库动态关联到智库机构,研究成果关联到对应专家,形成完整的关系网络。可选的,所述数据清洗包括:数据分析、定义清洗规则、执行清洗规则以及清洗结果验证;所述数据分析通过相关知识,应用统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础;所述定义清洗规则包括空值的检查和处理,非法值的检测和处理,不一致数据的检测和处理,相似重复记录的检测和处理;所述执行清洗规则通过检查拼写错误,去掉重复的记录,补上不完全的记录,解决不一致的记录;所述清洗结果验证通过对定义的清洗转换规则的正确性和效率进行验证和评估,当不满足清洗要求时,对清洗规则或系统参数进行调整和改进。可选的,所述数据集成包括:收集所述数据清洗后的数据,根据众多不同智库数据的来源,对智库机构、研究专家、成果类型建立统一的数据仓库,每个仓库存储对应数据,从而实现数据的集成;通过在数据集成前进行调研,确认每个字段的实际意义,避免被不规范的命名误导,从而解决字段意义问题;通过在数据集成的过程中尽量明确数据字段结构,确定字段的基本属性,在后续进行数据集成时,通过上表对数据格式进行约束,避免因格式不同对集成带来的困扰,从而解决字段结构问题;通过检测字段的相关性,侦察到数据冗余,从而解决字段冗余问题;通过调研定义主键,或者对表进行拆分或整合,检查数据记录的重复,主键能够确定唯一记录,其有可能是一个字段,也有可能是几个字段的组合,对表进行优化,过滤重复数据,从而解决数据重复问题。可选的,所述数据变换通过对数据依次进行光滑处理、聚集处理、数据泛化、数据规范化、数据属性构造,使数据统一化,并将数据转换成html或PDF的格式进行存储;所述光滑处理通过分箱或回归的方法去掉数据中的噪声;所述聚集处理通过对数据仓库中的数据进行简单的汇总和聚集来获得统计信息,以便对数据进行更高层次的分析;所述数据泛化通过高层的概念来替换低层或原始数据;所述数据规范化通过对属性数据进行缩放,使之可以落入到一个特定区域之间;所述数据属性构造通过构造新的属性并添加到属性集合中以便帮助挖掘。可选的,所述数据归约通过属性归约和数量归约在尽可能的前提下最大限度地减少数据量;所述属性归约通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数;所述数量归约通过用能替代的较小的数据来减少原始数据。可选的,所述关联挖掘通过采用Apriori算法寻找数据项之间的关联关系;所述Apriori算法包括:第一步,扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集,k=1,频繁0项集为空集;第二步,挖掘频繁k项集,首先,扫描数据计算候选频繁k项集的支持度,去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集;然后,如果得到的频繁k项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束,如果得到的频繁k项集只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束,最后,基于频繁k项集,连接生成候选频繁k+1项集;第三步,令k=k+1,转入第二步。可选的,所述聚类挖掘通过k-means算法将研究成果按照国际关系、教育、地区安全、经济、卫生、外交主题进行聚类,将专家进行相应聚类,发现各个领域的领军专家;所述k-means算法包括:第一步,选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心;第二步,对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最近的聚类中心所对应的类;第三步,将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;第四步,断聚类中心和目标函数的值是否发生改变,若不变,则输出结果,若改变,则返回第二步。可选的,通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛选大量的数据,完成数据分析,包括:将数据转化为可以观察分析的图像,每个图像对应一个维度;从对应图像上标出对应的数据情况,使每个维度的数据都转换成为图形的形式;通过折线图、饼图、柱状图、文字云呈现的图谱规律。实施本专利技术实施例,具有如下有益效果:在本专利技术中,通过提出的技术方案中建设了Web信息采集系统,仅需简单设置配置文件,就能实现自动化数据采集,长久数据更新,节约数据获取成本;在数据组织方面,智库数据具有多样性,有机构、专家、动态、成果等多种数据,需要把这些数据全部组织在一起,经过设计的关系型数据库表结构,组织方式灵活,能带来更高效的数据组织及运行效率;在数据处理方面,利用大数据处理技术,实现了结构化、半结构化与非结构化数据的处理,解决原始数据存在大量不完整、不一致、有异常的问题;在数据挖掘方面,利用大数据技术,从看似毫无规律的大量数据中找出某些相关性,从中提取有价值、有意义的信息并揭示出来;在可视化展示方面,把数据隐含的信息或规律直观的展示出来,实现了折线图、饼图、柱状图、文字云等多种知识图谱,提高了数据本身蕴涵的价值,从而帮助用户快速识别数据所呈现的图谱规律;利用大数据技术,在数据获取、处理、本文档来自技高网...

【技术保护点】
1.一种基于大数据技术的全球智库数据开发与组织方法,其特征在于,所述方法包括如下步骤:根据智库机构、智库动态、研究专家、研究成果,通过Web信息采集系统对智库的数据进行自动化采集,并形成不同的字段信息;通过对字段的定义和所描述对象的属性,并以关系型数据库建立的表结构为基础,形成一批相同类型的数据,对该类数据进行组织;进而创建数据体之间的关系;根据数据体之间的关系,将数据主要分为结构化数据、半结构化数据和非结构化数据,通过大数据处理技术,对这些数据进行预处理,所述预处理包括数据清洗、数据集成、数据变换以及数据归约,使其成为有用的成品数据;通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系,让同类型的资源集中展示,深度挖掘出同类型资源的聚集效应,从大量的数据中找出隐藏的信息;通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛选大量的数据,完成数据分析。

【技术特征摘要】
1.一种基于大数据技术的全球智库数据开发与组织方法,其特征在于,所述方法包括如下步骤:根据智库机构、智库动态、研究专家、研究成果,通过Web信息采集系统对智库的数据进行自动化采集,并形成不同的字段信息;通过对字段的定义和所描述对象的属性,并以关系型数据库建立的表结构为基础,形成一批相同类型的数据,对该类数据进行组织;进而创建数据体之间的关系;根据数据体之间的关系,将数据主要分为结构化数据、半结构化数据和非结构化数据,通过大数据处理技术,对这些数据进行预处理,所述预处理包括数据清洗、数据集成、数据变换以及数据归约,使其成为有用的成品数据;通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系,让同类型的资源集中展示,深度挖掘出同类型资源的聚集效应,从大量的数据中找出隐藏的信息;通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛选大量的数据,完成数据分析。2.根据权利要求1所述的方法,其特征在于,所述智库机构的字段信息包括智库名称、智库排名、智库简介、所属成果、所属专家、联系方式;所述智库动态的字段信息包括标题、日期、正文、图片、作者、来源、地址;所述研究专家的字段信息包括姓名、照片、所属机构、职务、职称、个人简历、研究领域、研究成果;所述研究成果的字段信息包括标题、日期、作者、所属机构、成果类型、关键词、摘要、全文。3.根据权利要求1所述的方法,其特征在于,进而创建数据体之间的关系,包括:研究专家关联到智库机构,智库动态关联到智库机构,研究成果关联到对应专家,形成完整的关系网络。4.根据权利要求1所述的方法,其特征在于,所述数据清洗的步骤包括:数据分析、定义清洗规则、执行清洗规则以及清洗结果验证;所述数据分析通过相关知识,应用统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础;所述定义清洗规则包括空值的检查和处理,非法值的检测和处理,不一致数据的检测和处理,相似重复记录的检测和处理;所述执行清洗规则通过检查拼写错误,去掉重复的记录,补上不完全的记录,解决不一致的记录;所述清洗结果验证通过对定义的清洗转换规则的正确性和效率进行验证和评估,当不满足清洗要求时,对清洗规则或系统参数进行调整和改进。5.根据权利要求1所述的方法,其特征在于,所述数据集成包括:收集所述数据清洗后的数据,根据众多不同智库数据的来源,对智库机构、研究专家、成果类型建立统一的数据仓库,每个仓库存储对应数据,从而实现数据的集成;通过在数据集成前进行调研,确认每个字段的实际意义,避免被不规范的命名误导,从而解决字段意义问题;通过在数据集成的过程中尽量明确数据字段结构,确定字段的基本属性,在后续进行数据集成时,通过上表对数据格式进行约束,避免因格式不同对集成带来的困扰,从而解决字段结构问题;通过检测字段的相关性,侦察到数据冗余,从而解决字段冗余问题;通过调研定义主键,或者对...

【专利技术属性】
技术研发人员:姜开学邓代海魏姚
申请(专利权)人:重庆尚唯信息技术有限公司
类型:发明
国别省市:重庆,50

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1