多语种大数据服务平台制造技术

技术编号:21034459 阅读:39 留言:0更新日期:2019-05-04 05:29
本发明专利技术公开了一种多语种大数据服务平台,该平台包括数据采集平台、数据预处理平台、数据存储平台、数据检索平台、数据分析平台和面向用户的应用支撑平台,其中:数据采集平台,被配置为采集大规模多语种数据,包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据;数据预处理平台,被配置为对数据采集平台采集到的数据进行预处理,并将处理后的数据上传至数据检索平台;数据检索平台,被配置为针对不同类型的数据,分别建立索引,并对新增的社交数据进行增量更新;数据分析平台,被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。本发明专利技术实现多语种数据资源深度抓取和精准分析。

【技术实现步骤摘要】
多语种大数据服务平台
本公开涉及一种多语种大数据服务平台。
技术介绍
数据是大数据平台建设的根本,如何在众多的信息资源中快速找到用户所需要的信息,已经成为互联网发展的趋势。面对巨大、杂乱无章的信息量以及用户对检索结果和时间的要求,提高信息检索效率已经成为一个迫切的问题。现有的大数据服务平台仅仅通过单台计算机很难快速检索出用户所需要的信息,需要通过多台计算机采用分布式协同工作的方式进行信息检索。目前,大数据服务平台还存在对沿线国家创新优势资源的整合不够以及国际国内两种科技资源的技术推介、对接工作信息不流通等问题,存在沿线国家发展过程中信息交流不畅、资源整合不足。现有数据中心很难满足大数据的需求,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储结构已成为信息系统的关键,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改为处理能力围着数据转,大数据也导致高可扩展性成为信息系统最本质的需求。因此,如何涉及一种能够实现多语种数据资源深度抓取和精准分析的平台,仍是待解决的技术问题。
技术实现思路
为了克服上述现有技术的不足,本公开提供了一种多语种大数据服务平台,实现多语种数据资源的深度抓取和精准分析。本公开所采用的技术方案是:一种多语种大数据服务平台,包括:数据采集平台,被配置为采集大规模多语种数据,包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据;数据预处理平台,被配置为对数据采集平台采集到的数据进行预处理,并将处理后的数据上传至数据检索平台;数据检索平台,被配置为针对不同类型的数据,分别建立索引,并对新增的社交数据进行增量更新;数据分析平台,被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。进一步的,在所述数据采集平台中,采用网络爬虫方法采集大规模多语种数据,对网络爬虫方法采集到的数据进行文档检测,确定文档类型,解析各种文档格式的内容,并提取元数据和结构化数据,实时计算元数据和结构化数据流的指标数据。进一步的,在所述数据预处理平台中,对数据进行预处理,包括遗漏数据填充、异常数据消除、噪声数据平滑处理、数据压缩与归一化操作,对于海外数据还进行再次处理,包括:跨语种翻译、多语言关联、本体识别、图像识别、音视频识别和语义分析,将处理后的数据传到数据存储平台。进一步的,在所述检索平台中,针对数据库中存储的基础数据和行为数据,分别建立元数据索引和行为数据索引,索引的类型包括但不限于索引同步、全文检索、分布式索引、跨语种检索、音视频检索、图像检索和增量索引。进一步的,在数据分析平台中,所述并行海量数据挖掘算法包括并行关联规则算法、基于马尔科夫逻辑网络的跨语种实体匹配算法、基于ML-PIB算法的多语种文本聚类算法以及用于分类或预测模型、数据聚类、关联规则、序列模式、依赖关系或依赖模型、异常和趋势发现,实现文本分类、文本聚类、关联分析、主题摘要、情感分析、资源推荐以及跨语种翻译识别。进一步的,所述数据分析平台采用关联规则挖掘算法从数据集中挖掘出所有的频繁项集,并对频繁项集进行分析,计算出频繁出现的元素,得出这些频繁出现的元素之间的相关联系;基于马尔科夫逻辑网络对多语种大数据进行实体匹配,基于ML-PIB算法的多语种文本聚类算法对多语种文本数据进行聚类分析,得到不同语种数据之间的目标聚类结果。进一步的,还包括:数据存储平台,被配置为基于决策树的存储分类方法将数据预处理平台处理后的数据分为基础数据和行为数据两类,其中,基础数据包括但不限于特征数据、音视频数据、图片数据和标引数据;行为数据包括但不限于用户访问行为、数据操作行为、接入访问行为和系统运行行为数据;基于服务的逻辑数据整合方法将分类后的数据进行整合,并存储到相应的数据库中。进一步的,还包括应用支撑平台,所述应用支撑平台包括大数据决策支持系统、智能推送系统、互联网服务中心,其中,所述大数据决策支持系统,被配置为对相关国家和地区海量数据进行分析挖掘,并可视化展现;所述智能推送系统,被配置为提供数据推送服务;所述互联网服务中心,被配置为实现服务平台与用户终端设备的信息交互。本公开的有益效果是:(1)本公开对多语种,多领域异构数据进行收集、清洗、整合,可以洞察各数据之间的相关性,经由对历史数据和现在数据的准确分析,能够精确预测未来,从而通过对海量数据的挖掘,进行大数据指标体系构建,为大数据智能决策提供支持;(2)本公开基于大数据技术对互联网公开数据资源进行抓取、分析和存储,并对大数据分布式实时传输与分发、异构大数据分布式在线实时处理,基于大数据的分布式实时索引与检索完成对数据的索引,实现多语种数据资源深度抓取和精准分析。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。图1是根据一种或多种实施方式的多语种大数据服务平台结构图。具体实施方式下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。一种或多种实施例提供一种多语种大数据服务平台,如图1所示,该平台包括数据采集平台、数据预处理平台、数据存储平台、数据检索平台、数据分析平台和面向用户的应用支撑平台,其中:所述数据采集平台,被配置为采集大规模多语种数据,包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据。所述政府数据,是政府部门在业务执行和社会监管过程中形成的业务数据,是制定决策的重要参考。所述社会数据,是互联网数据和各类企业数据,对于政府业务数据无法有效覆盖的部分,采用互联网数据和各类企业数据在内的社会数据,弥补现有的政府统计数据和业务数据无法监测和反映的领域。统计数据具有可靠、权威、定量且系统化的特征,是系统采集时考虑的重要部分,以互联网数据为主要代表的非统计数据具有实效性强、样本全等特点,是对统计数据的有效补充。具体地,所述数据采集平台基于Nutch的网络爬虫技术进行数据采集,基于Tika的多类型内容处理技术解析文档内容,提取元数据和结构化数据,基于Storm和Kafka实时计算指标数据。Nutch是一个开源Java实现的搜索引擎,提供了运行搜索引擎所需的全部工具,由爬虫crawler和查询searcher组成。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。为了使网络爬虫具有更好的性能,在采用网络爬虫技术进行数据采集过程中,需要进行DNS解析时,首先使用哈希函数映射到哈希表对应的位置,然后使用线性指针依次遍历冲突域中的数据,查找目标单元,若查找到则直接命中。否则需要向DNS缓本文档来自技高网
...

【技术保护点】
1.一种多语种大数据服务平台,其特征是,包括:数据采集平台,被配置为采集大规模多语种数据,包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据;数据预处理平台,被配置为对数据采集平台采集到的数据进行预处理,并将处理后的数据上传至数据检索平台;数据检索平台,被配置为针对不同类型的数据,分别建立索引,并对新增的社交数据进行增量更新;数据分析平台,被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。

【技术特征摘要】
1.一种多语种大数据服务平台,其特征是,包括:数据采集平台,被配置为采集大规模多语种数据,包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据;数据预处理平台,被配置为对数据采集平台采集到的数据进行预处理,并将处理后的数据上传至数据检索平台;数据检索平台,被配置为针对不同类型的数据,分别建立索引,并对新增的社交数据进行增量更新;数据分析平台,被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。2.根据权利要求1所述的多语种大数据服务平台,其特征是,在所述数据采集平台中,采用网络爬虫方法采集大规模多语种数据,对网络爬虫方法采集到的数据进行文档检测,确定文档类型,解析各种文档格式的内容,并提取元数据和结构化数据,实时计算元数据和结构化数据流的指标数据。3.根据权利要求1所述的多语种大数据服务平台,其特征是,在所述数据预处理平台中,对数据进行预处理,包括遗漏数据填充、异常数据消除、噪声数据平滑处理、数据压缩与归一化操作,对于海外数据还进行再次处理,包括:跨语种翻译、多语言关联、本体识别、图像识别、音视频识别和语义分析,将处理后的数据传到数据存储平台。4.根据权利要求1所述的多语种大数据服务平台,其特征是,在所述检索平台中,针对数据库中存储的基础数据和行为数据,分别建立元数据索引和行为数据索引,索引的类型包括但不限于索引同步、全文检索、分布式索引、跨语种检索、音视频检索、图像检索和增量索引。5.根据权利要求1所述的多语种大数据服务平台,其特征是,在数据分析平台中,所述并行海量数据挖掘算法包括并行关联规则算法、基...

【专利技术属性】
技术研发人员:赵燕清朱世伟于俊凤魏墨济张铭君李晨郭建萍杨爱芹刘翠芹
申请(专利权)人:山东省科学院情报研究所
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1