一种基于大数据与计算机视觉结合的图文检索系统及方法技术方案

技术编号:39897793 阅读:7 留言:0更新日期:2023-12-30 13:11
本发明专利技术公开了一种基于大数据与计算机视觉结合的图文检索系统及方法,所述系统包括:数据采集模块,用于获取业务数据

【技术实现步骤摘要】
一种基于大数据与计算机视觉结合的图文检索系统及方法


[0001]本专利技术涉及数据采集

数据检索

图像识别领域,特别是涉及一种基于大数据与计算机视觉结合的图文检索系统及方法


技术介绍

[0002]数据采集与数据检索是大数据关键技术,而图像识别则是计算机视觉技术

随着大数据技术与深度学习技术的发展,所需数据都是存储在关系型数据库,在大数据量下其检索性能低

关联性差

响应慢,且无法快速定位相关文书与卷宗的数据信息,更无法快速查找相关联的印章

指纹

签名等图片

这就需要数据采集技术,将案件相关数据采集到
Elasticsearch
中,并在结构化数据采集过程中,可以使用图像识别技术对卷宗或者文书的识别,从而快速查看关联的图片数据;而且
Elasticsearch
可以提供毫秒级别响应速度,以及更加强大数据检索与数据聚合操作,可以满足绝大多数业务场景的检索需求

在业务应用中,由于数据量比较大,导致检索响应慢,结果数据间关联性差;文书与卷宗数据则可以理解为非结构化数据,而在大量非结构化数据中无法快速准确的找到需要的文书或者卷宗数据,同样在大量的图片数据中也无法快速获取相关联的图片数据

因此需要使用数据采集

图像识别技术,将案件信息

文书信息
>、
卷宗信息以及图片的特征情况提取保存到
Elasticsearch
,再使用数据检索技术进行相关数据查询操作


技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足,提供一种基于大数据与计算机视觉结合的图文检索系统及方法,有效提高了案件

文书与卷宗的检索效率

[0004]本专利技术的目的是通过以下技术方案来实现的:一种基于大数据与计算机视觉结合的图文检索系统,包括:数据采集模块,用于获取业务数据

文书数据与卷宗数据,采集数据用于为数据检索提供支持;数据检索模块,用于提供数据检索功能,进行多组合关键字查询

多聚合查询以及基于
SQL
语句的检索;数据源管理模块,用于管理结构化数据源以及非结构化数据源,也支持插件化动态扩展数据源类型;词库管理模块,用于配置数据检索的分词词库,并提供词库隔离功能,以便于在不同的索引上使用不同的词库配置;
ES
监控与运维模块,用于提供对
ES
集群服务的监控面板,以及对
ES
集群动态扩容与缩容的操作;系统管理模块,用于实现系统的用户权限管理,并提供数据隔离功能,使得各个业务间的数据隔离,避免恶意访问以及垃圾数据产生;
图像识别模块,用于基于检察行业图像数据训练而得到的图像识别模型,识别文书卷宗中的目标物品,并结合数据检索功能,实现以文搜图的功能

[0005]所述数据采集模块支持多数据源采集以及嵌入对象模式采集,提供全量采集

增量采集

实时采集

采集失败后重试

脏数据处理

以及采集日志记录的功能

所述目标物品包括指纹

印章

签名中一种或多种的组合

[0006]一种基于大数据与计算机视觉结合的图文检索方法,包括以下步骤:第一步

进行图文检索服务的部署:
1、
基础环境准备;
2、 环境安装,首先安装并配置
JDK
环境;其次再安装
MySQL
服务,并初始化图文检索系统的数据库信息;然后安装
Elasticsearch
服务,并初始化
Elasticsearch
服务的账户密码;再安装图像识别服务,此时需要通过执行图像识别训练步骤,得到训练好的图像识别模型,并在图像识别扩展插件中配置图像识别服务地址;之后便是为图文检索服务配置
MySQL
连接信息
、Elasticsearch
连接信息

扩展插件路径信息;最后便是启动图文检索服务;第二步

系统用户配置:使用系统管理员登录系统后,首先需要创建一个角色与用户,然后便退出登录,使用新建的用户进行登录操作,避免当系统接入多个业务环境时,导致业务间检索数据混乱,以及脏数据与无用数据出现;第三步

数据源配置:配置需要采集的结构化数据源信息,以及非结构化数据源信息,当使用图像识别功能时,需要选择具有图像识别功能的非结构化扩展插件,用于统一管理;第四步

数据采集配置:在数据采集器中配置需要采集的结构化数据源,与关联的非结构化数据源(其中非结构化数据源默认只支持文本内容提取,可以通过安装扩展插件来支持图像识别功能),并且在数据采集
SQL
中也需要指定图像文件地址,默认会以

__URL

结尾字段的字段值作为非结构化文档地址,还需要在支持图像识别的非结构化数据源插件中配置图像服务地址(会通过图像识别模型训练步骤,得到拥有检察行业特性的图像识别模型,并使用图像识别模型部署一个图像识别服务)

[0007]第五步

数据采集:校验数据库是否开启归档日志,如果开启则执行基于
Flink
的实时同步步骤,否则会执行数据抽取步骤,之后会遍历采集的数据,从而获取需要识别的图像文件,并保存到本地;第六步

图像识别结果存储:通过非结构化数据源的图像识别插件,调用图像识别服务进行对图像内容进行识别,并保存其识别的结果数据;第七步

数据检索使用:等待数据采集完成后,通过数据检索步骤查询需要的数据信息,如果检索的对象是图像索引则会返回关键字命中的图像地址;第八步

需要进行图像预览操作时,在本地部署一个
nginx
服务,并挂载图像保存地址,使用
nginx
代理地址加上命中图像的本地地址,实现图像预览操作

[0008]所述数据抽取步骤包括:
A1、
获取采集器信息,以及数据源信息;
A2、
判断当前采集任务时实时采集任务还是定时采集任务,如果是实时采集则执行步骤
A3
,如果是定时采集则执行步骤
A4

A3、
在实时采集中,先进行
SQL
解析,将解析的
SQL
信息,并将其转换成
Flink
任务,使用
Flink
进行数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于大数据与计算机视觉结合的图文检索系统,其特征在于:包括:数据采集模块,用于获取业务数据

文书数据与卷宗数据,采集数据用于为数据检索提供支持;数据检索模块,用于提供数据检索功能,进行多组合关键字查询

多聚合查询以及基于
SQL
语句的检索;数据源管理模块,用于管理结构化数据源以及非结构化数据源,也支持插件化动态扩展数据源类型;词库管理模块,用于配置数据检索的分词词库,并提供词库隔离功能,以便于在不同的索引上使用不同的词库配置;
ES
监控与运维模块,用于提供对
ES
集群服务的监控面板,以及对
ES
集群动态扩容与缩容的操作;系统管理模块,用于实现系统的用户权限管理,并提供数据隔离功能,使得各个业务间的数据隔离,避免恶意访问以及垃圾数据产生;图像识别模块,用于基于检察行业图像数据训练而得到的图像识别模型,识别文书卷宗中的目标物品,并结合数据检索功能,实现以文搜图的功能
。2.
根据权利要求1所述的一种基于大数据与计算机视觉结合的图文检索系统,其特征在于:所述数据采集模块支持多数据源采集以及嵌入对象模式采集,提供全量采集

增量采集

实时采集

采集失败后重试

脏数据处理

以及采集日志记录的功能
。3.
根据权利要求1所述的一种基于大数据与计算机视觉结合的图文检索系统,其特征在于:所述目标物品包括指纹

印章

签名中一种或多种的组合
。4.
一种基于大数据与计算机视觉结合的图文检索方法,基于权利要求
1~3
中任意一项所述的系统,其特征在于:包括以下步骤:第一步

进行图文检索服务的部署:
1、
基础环境准备;
2、 环境安装,首先安装并配置
JDK
环境;其次再安装
MySQL
服务,并初始化图文检索系统的数据库信息;然后安装
Elasticsearch
服务,并初始化
Elasticsearch
服务的账户密码;再安装图像识别服务,此时需要通过执行图像识别训练步骤,得到训练好的图像识别模型,并在图像识别扩展插件中配置图像识别服务地址;之后便是为图文检索服务配置
MySQL
连接信息
、Elasticsearch
连接信息

扩展插件路径信息;最后便是启动图文检索服务;第二步

系统用户配置:使用系统管理员登录系统后,首先需要创建一个角色与用户,然后便退出登录,使用新建的用户进行登录操作,避免当系统接入多个业务环境时,导致业务间检索数据混乱,以及脏数据与无用数据出现;第三步

数据源配置:配置需要采集的结构化数据源信息,以及非结构化数据源信息,当使用图像识别功能时,需要选择具有图像识别功能的非结构化扩展插件,用于统一管理
;
第四步

数据采集配置:在数据采集器中配置需要采集的结构化数据源,与关联的非结构化数据源,并且在数据采集
SQL
中也需要指定图像文件地址,默认会以

__URL

结尾字段的字段值作为非结构化文档地址,还需要在支持图像识别的非结构化数据源插件中配置图像服务地址;第五步

数据采集:校验数据库是否开启归档日志,如果开启则执行基于
Flink
的实时
同步步骤,否则会执行数据抽取步骤,之后会遍历采集的数据,从而获取需要识别的图像文件,并保存到本地;第六步

图像识别结果存储:通过非结构化数据源的图像识别插件,调用图像识别服务进行对图像内容进行识别,并保存其识别的结果数据;第七步

数据检索使用:等待数据采集完成后,通过数据检索步骤查询需要的数据信息,如果检索的对象是图像索引则会返回关键字命中的图像地址;第八步

需要进行图像预览操作时,在本地部署一个
nginx
服务,并挂载图像保存地址,使用
nginx
代理地址加上命中图像的本地地址,实现图像预览操作
。5.
根据权利要求4所述的一种基于大数据与计算机视觉结合的图文检索方法,其特征在于:所述数据抽取步骤包括:
A1、
获取采集器信息,以及数据源信息;<...

【专利技术属性】
技术研发人员:杨登柳朱雅都张迪勇黄尚强郑佳勇方卫洪魏明欣席力凡陈曦范红霞李丹
申请(专利权)人:同方赛威讯信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1