多语种大数据服务平台制造技术

技术编号：21034459 阅读：39 留言：0更新日期：2019-05-04 05:29

本发明专利技术公开了一种多语种大数据服务平台，该平台包括数据采集平台、数据预处理平台、数据存储平台、数据检索平台、数据分析平台和面向用户的应用支撑平台，其中：数据采集平台，被配置为采集大规模多语种数据，包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据；数据预处理平台，被配置为对数据采集平台采集到的数据进行预处理，并将处理后的数据上传至数据检索平台；数据检索平台，被配置为针对不同类型的数据，分别建立索引，并对新增的社交数据进行增量更新；数据分析平台，被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。本发明专利技术实现多语种数据资源深度抓取和精准分析。

全部详细技术资料下载

【技术实现步骤摘要】
多语种大数据服务平台
本公开涉及一种多语种大数据服务平台。
技术介绍
数据是大数据平台建设的根本，如何在众多的信息资源中快速找到用户所需要的信息，已经成为互联网发展的趋势。面对巨大、杂乱无章的信息量以及用户对检索结果和时间的要求，提高信息检索效率已经成为一个迫切的问题。现有的大数据服务平台仅仅通过单台计算机很难快速检索出用户所需要的信息，需要通过多台计算机采用分布式协同工作的方式进行信息检索。目前，大数据服务平台还存在对沿线国家创新优势资源的整合不够以及国际国内两种科技资源的技术推介、对接工作信息不流通等问题，存在沿线国家发展过程中信息交流不畅、资源整合不足。现有数据中心很难满足大数据的需求，存储能力的增长远远赶不上数据的增长，设计最合理的分层存储结构已成为信息系统的关键，数据的移动已成为信息系统最大的开销，信息系统需要从数据围着处理器转改为处理能力围着数据转，大数据也导致高可扩展性成为信息系统最本质的需求。因此，如何涉及一种能够实现多语种数据资源深度抓取和精准分析的平台，仍是待解决的技术问题。
技术实现思路
为了克服上述现有技术的不足，本公开提供了一种多语种大数据服务平台，实现多语种数据资源的深度抓取和精准分析。本公开所采用的技术方案是：一种多语种大数据服务平台，包括：数据采集平台，被配置为采集大规模多语种数据，包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据；数据预处理平台，被配置为对数据采集平台采集到的数据进行预处理，并将处理后的数据上传至数据检索平台；数据检索平台，被配置为针对不同类型的数据，分别建立索引，并对新增的社交数据进行增量更新...

【技术保护点】
1.一种多语种大数据服务平台，其特征是，包括：数据采集平台，被配置为采集大规模多语种数据，包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据；数据预处理平台，被配置为对数据采集平台采集到的数据进行预处理，并将处理后的数据上传至数据检索平台；数据检索平台，被配置为针对不同类型的数据，分别建立索引，并对新增的社交数据进行增量更新；数据分析平台，被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。

【技术特征摘要】
1.一种多语种大数据服务平台，其特征是，包括：数据采集平台，被配置为采集大规模多语种数据，包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据；数据预处理平台，被配置为对数据采集平台采集到的数据进行预处理，并将处理后的数据上传至数据检索平台；数据检索平台，被配置为针对不同类型的数据，分别建立索引，并对新增的社交数据进行增量更新；数据分析平台，被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。2.根据权利要求1所述的多语种大数据服务平台，其特征是，在所述数据采集平台中，采用网络爬虫方法采集大规模多语种数据，对网络爬虫方法采集到的数据进行文档检测，确定文档类型，解析各种文档格式的内容，并提取元数据和结构化数据，实时计算元数据和结构化数据流的指标数据。3.根据权利要求1所述的多语种大数据服务平台，其特征是，在所述数据预处理平台中，对数据进行预处理，包括遗漏数据填充、异常数据消除、噪声数据平滑处理、数据压缩与归一化操作，对于海外数据还进行再次处理，包括：跨语种翻译、多语言关联、本体识别、图像识别、音视频识别和语义分析，将处理后的数据传到数据存储平台。4.根据权利要求1所述的多语种大数据服务平台，其特征是，在所述检索平台中，针对数据库中存储的基础数据和行为数据，分别建立元数据索引和行为数据索引，索引的类型包括但不限于索引同步、全文检索、分布式索引、跨语种检索、音视频检索、图像检索和增量索引。5.根据权利要求1所述的多语种大数据服务平台，其特征是，在数据分析平台中，所述并行海量数据挖掘算法包括并行关联规则算法、基...

【专利技术属性】
技术研发人员：赵燕清，朱世伟，于俊凤，魏墨济，张铭君，李晨，郭建萍，杨爱芹，刘翠芹，
申请(专利权)人：山东省科学院情报研究所，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人