一种基于内容识别的多源异构情报汇聚协同处理平台制造技术

技术编号:29960378 阅读:32 留言:0更新日期:2021-09-08 09:18
本发明专利技术公开了一种基于内容识别的多源异构情报汇聚协同处理平台,包括:基础环境层、数据资源层、业务处理层和应用服务层,所述基础环境层包括:硬件支撑环境和软件支撑环境,所述硬件支撑环境包括:分布式存储环境和分布式计算环境;数据资源层包括:地图数据、业务数据、全文检索数据、非结构化数据、业务处理中间数据和业务处理结果数据,所述数据资源层为业务处理层提供统一的数据来源与支撑;所述业务处理层包括:多源数据汇集模块、预处理模块和自动监控入库模块;能够很方便的使大量数据具有搜索、分析和探索的能力,支持单位,类型,时间,热点,关键词等多维情报查询,实现近实时地对文档进行全文本搜索,有效提高数据全文检索的效率。的效率。的效率。

【技术实现步骤摘要】
一种基于内容识别的多源异构情报汇聚协同处理平台


[0001]本专利技术涉及情报信息共享协作系统
,尤其涉及一种基于内容识别的多源异构情报汇聚协同处理平台。

技术介绍

[0002]从国际发展看,随着各国人工智能、大数据、云计算等高新技术在军事领域的融合发展,国防科技情报服务正加速推进传统文献电子化、异构数据整合化、领域知识关联化,未来战争形态逐步由信息化转变为智能化。智能技术与军事情报的一体化发展为美国等发达国家的战略、组织、优先事项和资源分配带来了重大变革。国防领域情报工作已经不再是以往的人工手动搜集处理分析的状态,自动化、智能化已经成为情报发展的必然趋势。
[0003]目前,陆军情报系统经过多年建设,初步构建了情报数据传输与处理基础设施,累积了海量的情报数据,类型包括格式化、半格式化、非格式化数据,承载形式包括文本、数据包、图片、视频、高分影像等,对这些类型不一、格式不一、结构不一的数据尚无统一的平台进行有效整合处理。情报数据的集中存储、高效查询、关联运用正成为亟待解决的重要课题。突出表现为以下问题:一是硬件环境薄弱,不能满足数据日益增长的需求。二是数据高度分散,没有形成关联运用能力。三是数据标准不统一,缺少预处理方法和技术。四是深度挖掘不够,尚未发挥海量数据情报价值。五是共享服务能力弱,多样化按需保障能力不够。
[0004]基于上述背景,现有业务系统中累积了海量的格式化、半格式化、非格式化情报数据,承载形式包括文本、数据包、图片、视频、高分影像等,对这些类型不一、格式不一、结构不一的数据目前尚无统一的平台进行有效整合处理。传统的整合方式仍然停留在人工程度,大多数依赖于情报处理人员的人工识别判断,包括人工上传、人工分类入库,在数据规模、数据处理的及时性、高效性、准确性上亟待提升。另一方面,以目前累积的海量情报数据的运用情况来看,针对高度分散的情报数据,尚未形成关联运用的能力,数据的深度挖掘不够,尚未发挥海量数据的情报价值,同时,由于不同格式的情报数据很难完成自动分级分类存储,数据规模、质量和应用水平都有待优化,从而导致情报人员获取有效数据的效率较低。

技术实现思路

[0005]本专利技术克服了现有技术的不足,提供一种基于内容识别的多源异构情报汇聚协同处理平台。
[0006]为达到上述目的,本专利技术采用的技术方案为:一种基于内容识别的多源异构情报汇聚协同处理平台,包括:基础环境层、数据资源层、业务处理层和应用服务层,所述基础环境层包括:硬件支撑环境和软件支撑环境,所述硬件支撑环境包括:分布式存储环境和分布式计算环境。
[0007]数据资源层包括:地图数据、业务数据、全文检索数据、非结构化数据、业务处理中间数据和业务处理结果数据,所述数据资源层用于管理与存储业务处理层处理情报过程中
产生的中间数据和结果数据,且所述数据资源层为业务处理层提供统一的数据来源与支撑。
[0008]所述业务处理层包括:若干个基础模块,若干个所述基础模块包括:多源数据汇集模块、预处理模块和自动监控入库模块;所述应用服务层用于在业务处理的基础上提供全文检索以及情报数据分类展示。
[0009]本专利技术一个较佳实施例中,所述业务处理层还包括:备份模块、文件移动模块、预处理模块、系统核心模块、提取模块。
[0010]本专利技术一个较佳实施例中,所述软件支撑环境包括:MySQL数据库、搜索 Elasticsearch引擎、Java/Python开发环境和Docker应用容器引擎。
[0011]本专利技术一个较佳实施例中,包括:通过信号连接的服务器端和Web客户端,
[0012]所述服务端包括:接入服务器,所述接入服务器分别连接文件存储服务器和数据库服务器,所述文件存储服务器和所述数据库服务器均连接应用服务器,
[0013]所述应用服务器分别连接地图服务器和Web服务器,所述应用服务器还连接全文检索服务器,所述地图服务器提供地图引擎、地图数据、地图网络配置;
[0014]所述Web客户端包括:值班人员、决策人员、业务人员以及管理员,且所述Web客户端用于信息展示、浏览审核、系统管理。
[0015]本专利技术一个较佳实施例中,所述接入服务器提供多源数据接入服务,适配不同数据源,转换和提取数据信息。
[0016]本专利技术一个较佳实施例中,所述文件存储服务器提供分布式存储服务,用于存储文件、图片。
[0017]本专利技术一个较佳实施例中,所述数据库服务器管理核心业务数据,实现数据备份以及数据恢复。
[0018]本专利技术一个较佳实施例中,所述应用服务器用于提供核心业务管理与控制服务,配置服务插件、业务模块,提供接口。
[0019]本专利技术的第二种技术方案为,包括以下步骤:
[0020]步骤S1:自动监控入库模块监控到报文数据源输入的新文件,利用备份模块提供数据的容灾备份,以保证在极端环境下原始以及成品数据不会丢失;
[0021]步骤S2:通过文件移动模块将新文件复制或移动到对应工作目录,同时,预处理模块根据文件格式对新文件进行预处理,再将处理好的数据传递到提取模块;
[0022]步骤S3:通过系统核心模块,将新文件中的数据解析,并将提取的具体信息进行入库操作,以便调用与显示;同时将文件移动到文件存储目录,以供前后端调用。
[0023]本专利技术一个较佳实施例中,所述步骤S2预处理模块进行数据建模和知识生成,构建面向业务的知识库,形成数据处理规则。
[0024]本专利技术解决了
技术介绍
中存在的缺陷,本专利技术具备以下有益效果:
[0025](1)本专利技术能够很方便的使大量数据具有搜索、分析和探索的能力,支持单位,类型,时间,热点,关键词等多维情报查询,同时支持标题和全文检索,对入库的非结构化数据进行基于内容的智能分析,实现平台所有数据全文检索,能够按标题、正文、来报单位、收文时间等条件快速准确地定位搜索。 Elasticsearch会以JSON文档的形式存储数据,其使用的倒排索引的数据结构,会列出在所有文档中出现的每个特有词汇,并且可以找到包含每
个词汇的全部文档,实现近实时地对文档进行全文本搜索,有效提高数据全文检索的效率。
[0026](2)本专利技术根据预定义文档类型进行文档预处理,针对图片文档提供强大文字识别预处理能力,对图片文档首先进行文字识别,然后针对识别的文档内容进行自动与处理,细化了整个系统对于文档校准的流程,在文档层,既保证了文档的统一性,完整性,既使得系统流程不会反复冲用,实现了类似文档格式化的功能,在数据层,保证了数据提取模块在不更改任何重要配置的情况下,仍然能正常工作,正常提取重要信息,正常入库等。
[0027](3)本专利技术支持文本,图片,视频,语音等异构非结构化情报数据的自动分类,综合运用基于深度学习的图片文字识别技术,图像识别技术,语音识别,自然语音处理,基于半监督的多模态深度学习分类算法等技术实现情报自动分类和分级,提高情报读取的效率。
[0028](4)本专利技术采用Elasticsea本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内容识别的多源异构情报汇聚协同处理平台,包括:基础环境层、数据资源层、业务处理层和应用服务层,其特征在于,所述基础环境层包括:硬件支撑环境和软件支撑环境,所述硬件支撑环境包括:分布式存储环境和分布式计算环境;数据资源层包括:地图数据、业务数据、全文检索数据、非结构化数据、业务处理中间数据和业务处理结果数据,所述数据资源层用于管理与存储业务处理层处理情报过程中产生的中间数据和结果数据,且所述数据资源层为业务处理层提供统一的数据来源与支撑;所述业务处理层包括:若干个基础模块,若干个所述基础模块包括:多源数据汇集模块、预处理模块和自动监控入库模块;所述应用服务层用于在业务处理的基础上提供全文检索以及情报数据分类展示。2.根据权利要求1所述的一种基于内容识别的多源异构情报汇聚协同处理平台,其特征在于:所述业务处理层还包括:备份模块、文件移动模块、预处理模块、系统核心模块、提取模块。3.根据权利要求1所述的一种基于内容识别的多源异构情报汇聚协同处理平台,其特征在于:所述软件支撑环境包括:MySQL数据库、搜索Elasticsearch引擎、Java/Python开发环境和Docker应用容器引擎。4.根据权利要求1所述的一种基于内容识别的多源异构情报汇聚协同处理平台的网络拓扑结构,其特征在于,包括:通过信号连接的服务器端和Web客户端,所述服务端包括:接入服务器,所述接入服务器分别连接文件存储服务器和数据库服务器,所述文件存储服务器和所述数据库服务器均连接应用服务器,所述应用服务器分别连接地图服务器和Web服务器,所述应用服务器还连接全文检索服务器,所述地图服务器提供地图引擎、地图数据、地图网络配置;所述We...

【专利技术属性】
技术研发人员:付睿智田苗张建斌
申请(专利权)人:苏州海赛人工智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1