基于感知多模态大数据的高效查询方法技术

技术编号:28295690 阅读:19 留言:0更新日期:2021-04-30 16:19
本发明专利技术的一种基于感知多模态大数据的高效查询方法,包括以下步骤,步骤一:采集图像模态数据集,对图像滤波并生成点云数据;步骤二:根据步骤一中的点云数据下的图像深度值,获得点云数据下的所有点的特征值;步骤三:异步采集文本模态数据集,对文本进行特征提取;步骤四:利用CAA算法,建立图像特征‑文本特征的训练表;步骤五:随机对训练表中数据进行分类成训练集数据库和测试集数据库,将训练集数据库和测试集数据库中数据进行迁移学习;步骤六:根据迁移学习建立查询模型并上传云端,后续查询图形或者文字输入查询模型,由查询模型判别后续图形或者文字的特征,根据判别后的特征在互联网上查询。该方法可以根据检测数据对后续数据进行推测。

【技术实现步骤摘要】
基于感知多模态大数据的高效查询方法
本专利技术涉及数据查询领域,具体涉及基于感知多模态大数据的高效查询方法。
技术介绍
所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。TuringOS机器人操作系统将机器人与人的交互模式定义为“多模态交互”,即通过文字、语音、视觉、动作、环境等多种方式进行人机交互,充分模拟人与人之间的交互方式。这一交互方式符合机器人类产品的形态特点和用户期待,打破了传统PC式的键盘输入和智能手机的点触式交互模式。在水源管理领域,通常是通过自动化的控制,有视频监控、深度落差检测、水质检测等,无论是视频监控还是深度落差检测等,都会生成一个图像集合或者一个文本集合。现有对这些图像集合或者文本集合的处理方式为,通过人观察、或者设置最高值报警,无法做到根据现有数据,对其他相同区域的检测数据的合理性进行一个判断。
技术实现思路
为了克服现有技术中的不足,本专利技术提出的基于感知多模态大数据的高效查询方法,其可以根据检测数据对后续数据进行推测。为了实现上述目的,本专利技术的一种基于感知多模态大数据的高效查询方法,包括以下步骤,步骤一:采集图像模态数据集,对图像滤波并生成点云数据;步骤二:根据步骤一中的点云数据下的图像深度值,获得点云数据下的所有点的特征值;步骤三:异步采集文本模态数据集,使用CountVectorizer对文本进行特征提取;步骤四:利用CAA算法,建立图像特征-文本特征的训练表;步骤五:随机对训练表中数据进行分类,产生训练集数据库和测试集数据库,将训练集数据库和测试集数据库中数据进行迁移学习;步骤六:根据迁移学习建立查询模型并上传云端,后续查询图形或者文字输入查询模型,由查询模型判别后续图形或者文字的特征,根据判别后的特征在互联网上查询。进一步地,步骤一中采用方差法进行滤波,公式如下:其中,ω0是背景点数占图像比例,u0是图像的背景点数的平均灰度,u是图像的总平均灰度;g是图像的方差。进一步地,步骤二中采用阈值法获得图像深度值,公式如下:p(x,y)=p(x,y)dis≤p(x,y)≤dis*2h,其中,p(x,y)为图像深度,dis是图像的高度,h是滤波后图形的高度。步骤二中,收集图像深度形成点云数据,采用PCL对点云数据进行处理,获得图像深度的特征值。进一步地,步骤三中,CountVectorizer的特征选取频率公式如下:其中,IDF是特征选取概率,m是点云数据的数量,g是特征值的数量。进一步地,所述训练集数据库和测试集数据库的比例为1:2。有益效果:将图像模态数据集和文本模态数据集进行特征值调取,再利用迁移学习,对特征值建立模型并训练,再利用后续测得的图像集或者文本集输入到迁移学习模型中,判断该后续图像集或者文本集是否符合迁移学习模型的表面,以判断图像集和文本集的数据是否合格。附图说明下面结合附图对本专利技术作进一步描写和阐述。图1是本专利技术首选实施方式的流程图。具体实施方式下面将结合附图、通过对本专利技术的优选实施方式的描述,更加清楚、完整地阐述本专利技术的技术方案。如图1所示,本专利技术首选实施方式的基于感知多模态大数据的高效查询方法,包括步骤一:采集图像模态数据集,对图像滤波并生成点云数据。在水源管理领域中,一般采集的模态数据包括两种,一种是图像模态,一种是文本模态。图像模态包括监控系统拍下的视频、照片等。文本模态包括测量的深度值、水质值等。点云数据(pointclouddata)是指在一个三维坐标系统中的一组向量的集合。扫描资料以点的形式记录,每一个点包含有三维坐标,有些可能含有颜色信息(RGB)或反射强度信息(Intensity)。步骤二:根据步骤一中的点云数据下的图像深度值,获得点云数据下的所有点的特征值。对于点云中每个数据点,通过其K个局部临近点拟合最小二乘局部平面p,使得数据点的所有临近点到此平面的距离和最小。步骤三:异步采集文本模态数据集,使用CountVectorizer对文本进行特征提取。CountVectorizer()函数只考虑每个单词出现的频率;然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果。其思想是,先根据所有训练文本,不考虑其出现顺序,只将训练文本中每个出现过的词汇单独视为一列特征,构成一个词汇表。步骤四:利用CAA算法,建立图像特征-文本特征的训练表。计算机辅助数值分析(简称CAA)与计算机辅助设计(简称CAD)是以电子计算机为主要工具的一种分析与设计方法,它是以计算技术、应用数学与模拟理论为基础发展起来的一门新兴学科,目前已成为计算机应用领域中一个重要分支。科学技术的飞速发展,使得科学理论研究、新产品开发及工程设计中所建立的数学模型越来趋复杂。步骤五:随机对训练表中数据进行分类,产生训练集数据库和测试集数据库,将训练集数据库和测试集数据库中数据进行迁移学习。基于实例的迁移学习研究的是,如何从源领域中挑选出,对目标领域的训练有用的实例,比如对源领域的有标记数据实例进行有效的权重分配,让源域实例分布接近目标域的实例分布,从而在目标领域中建立一个分类精度较高的、可靠地学习模型。因为,迁移学习中源领域与目标领域的数据分布是不一致,所以源领域中所有有标记的数据实例不一定都对目标领域有用。步骤六:根据迁移学习建立查询模型并上传云端,后续查询图形或者文字输入查询模型,由查询模型判别后续图形或者文字的特征,根据判别后的特征在互联网上查询。迁移学习的结果上传后,便于多地方多次对不同的数据进行判别。上述具体实施方式仅仅对本专利技术的优选实施方式进行描述,而并非对本专利技术的保护范围进行限定。在不脱离本专利技术设计构思和精神范畴的前提下,本领域的普通技术人员根据本专利技术所提供的文字描述、附图对本专利技术的技术方案所作出的各种变形、替代和改进,均应属于本专利技术的保护范畴。本专利技术的保护范围由权利要求确定。本文档来自技高网...

【技术保护点】
1.一种基于感知多模态大数据的高效查询方法,包括以下步骤,/n步骤一:采集图像模态数据集,对图像滤波并生成点云数据;/n步骤二:根据步骤一中的点云数据下的图像深度值,获得点云数据下的所有点的特征值;/n步骤三:异步采集文本模态数据集,使用CountVectorizer对文本进行特征提取;/n步骤四:利用CAA算法,建立图像特征-文本特征的训练表;/n步骤五:随机对训练表中数据进行分类,产生训练集数据库和测试集数据库,将训练集数据库和测试集数据库中数据进行迁移学习;/n步骤六:根据迁移学习建立查询模型并上传云端,后续查询图形或者文字输入查询模型,由查询模型判别后续图形或者文字的特征,根据判别后的特征在互联网上查询。/n

【技术特征摘要】
1.一种基于感知多模态大数据的高效查询方法,包括以下步骤,
步骤一:采集图像模态数据集,对图像滤波并生成点云数据;
步骤二:根据步骤一中的点云数据下的图像深度值,获得点云数据下的所有点的特征值;
步骤三:异步采集文本模态数据集,使用CountVectorizer对文本进行特征提取;
步骤四:利用CAA算法,建立图像特征-文本特征的训练表;
步骤五:随机对训练表中数据进行分类,产生训练集数据库和测试集数据库,将训练集数据库和测试集数据库中数据进行迁移学习;
步骤六:根据迁移学习建立查询模型并上传云端,后续查询图形或者文字输入查询模型,由查询模型判别后续图形或者文字的特征,根据判别后的特征在互联网上查询。


2.根据权利要求1所述的基于感知多模态大数据的高效查询方法,其特征在于,步骤一中采用方差法进行滤波,公式如下:



其中,ω0是背景点数占图像比例,u0是图像的背景点数的平均灰度,u是图像的总平均灰...

【专利技术属性】
技术研发人员:李海涛
申请(专利权)人:江苏智水智能科技有限责任公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1