System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向多模态数据查询的基准测试方法和测试框架技术_技高网

一种面向多模态数据查询的基准测试方法和测试框架技术

技术编号:41380290 阅读:5 留言:0更新日期:2024-05-20 10:22
本发明专利技术公开一种面向多模态数据查询的基准测试方法和测试框架,该方法包括:将目标系统接入多模态数据查询的基准测试框架后,得到目标系统执行融合查询任务的基准测试结果;多模态数据查询的基准评测框架包括:仿真数据生成器,用于对结构化数据和非结构化数据进行仿真,以生成扩展属性图模型;工作负载生成器,用于生成至少一个融合查询任务;性能度量计算器,用于使所述目标系统在扩展属性图模型上执行所述融合查询任务,并根据执行所述融合查询任务的性能指标,得到目标系统执行该融合查询任务的基准测试结果。本发明专利技术可以对多模态数据管理系统在执行多模态数据融合查询任务时的性能和功能进行定量化的评估。

【技术实现步骤摘要】

本专利技术涉及多模态数据查询、数据库测试、人工智能等领域,提出一种面向多模态数据查询的基准测试方法和测试框架


技术介绍

1、随着大数据时代的到来,数据的种类日益复杂多样化,传统的单一数据类型的查询已经无法满足多模态数据应用的查询需求了,而多模态数据融合查询具备同时检索结构化数据和非结构化数据的优势,开始被许多应用采用。回顾过去几十年的基准评测发展历史,虽然诞生了关系型数据、文档型数据、流数据、大数据甚至是多模型数据的评测方法,但是对多模态数据融合查询的基准评测还是一片空白。相关社区急需一套公平客观的评测方法,来简化在不同数据库硬件、软件和配置之间的比较过程,为多模态数据查询系统的技术选型提供参考依据。


技术实现思路

1、针对上述问题,本专利技术旨在提供一种面向多模态数据查询的基准测试方法和测试框架,可以对多模态数据管理系统在执行多模态数据融合查询任务时的性能和功能进行定量化的评估。

2、为了达到上述专利技术目的,本专利技术的技术方案包括以下内容。

3、一种面向多模态数据查询的基准测试方法,其特征在于,将目标系统接入多模态数据查询的基准测试框架后,得到所述目标系统执行融合查询任务的基准测试结果;其中,所述多模态数据查询的基准评测框架包括:仿真数据生成器、工作负载生成器和性能度量计算器;

4、所述仿真数据生成器,用于对结构化数据和非结构化数据进行仿真,以生成扩展属性图模型;

5、所述工作负载生成器,用于生成至少一个融合查询任务;

6、所述性能度量计算器,用于使所述目标系统在扩展属性图模型上执行所述融合查询任务,并根据执行所述融合查询任务的性能指标,得到所述目标系统执行该融合查询任务的基准测试结果。

7、进一步地,根据权利要求1所述的方法,其特征在于,所述将目标系统接入多模态数据查询的基准测试框架,包括:

8、将多模态数据的存储和查询操作都抽象成原子化的crud方法;

9、扩展属性图模型使用两个类node,relationship和一个hasproperty接口表示,并为扩展属性图模型提供查询、删除、更新和插入的抽象接口。

10、进一步地,所述对结构化数据和非结构化数据进行仿真,以生成扩展属性图模型,包括:

11、获取结构化数据集和非结构化数据集;

12、对结构化数据和非结构化数据仿真后,将仿真后的结构化数据映射到属性图模型中;其中,所述属性图模型中的节点包括:动态实体和静态实体;

13、通过将动态实体的部分属性修改为非结构属性,值为非结构化格式,实现仿真后的非结构化数据向属性图模型的映射,以得到初始的扩展属性图模型;其中,所述非结构化格式包括:自由文本、长序列、图像;

14、对所述初始的扩展属性图模型的规模进行缩放,得到不同规模的扩展属性图模型。

15、进一步地,所述获取结构化和非结构化数据集,包括:

16、根据设定要求,选取真实的非结构化数据集和结构化的图数据生成工具;其中,所述设定要求包括:数据的规模、数据的可扩展性和数据的代表性;

17、对数据集进行采样后,过滤无效数据,并提取数据的特性;

18、根据数据的特征和设定的规模因子生成指定规模的数据集;

19、将数据集转换成的指定格式,得到用于基准测试的多模态数据集。

20、进一步地,对所述初始的扩展属性图模型的规模进行缩放,得到不同规模的扩展属性图模型,包括:

21、对于结构化数据,基于真实世界的数据分布规律实现数据扩展;其中,所述真实世界的数据分布规律包括:幂律分布或高斯分布;

22、判断非结构化数据集的规模是否达到指定数量;

23、在所述非结构化数据集的规模达到指定数量的情况下,基于随机采样策略实现非结构化数据规模的缩放;

24、在所述非结构化数据集的规模未达到指定数量的情况下,基于生成式算法实现非结构化数据规模的缩放;其中,生成式算法包括:文本数据增强方法、图像数据增强方法。

25、进一步地,所述融合查询任务包括:结构化和非结构化属性协同过滤、在模式匹配时执行多个非结构化属性协同过滤、基于融合查询的连接操作、基于融合查询的聚合操作、基于融合查询的子图匹配操作、基于非结构化数据的关系挖掘、基于融合查询的最短路径计算、模式匹配时基于指定算法过滤数据和情感分析;其中,所述指定算法包括:人脸识别算法和情感分析算法。

26、进一步地,所述性能指标包括:请求响应时间、吞吐量、并发、硬件资源利用率和正确率。

27、进一步地,非结构化数据的融合查询任务在无本地查询引擎支持的条件下,将非结构化数据语义信息提取的查询操作抽象成了一个人工智能服务,并提供抽象接口;其中所述抽象接口包括:对人脸图片数据进行识别的抽象接口、对情感文本数据进行情感分析的抽象接口和对新闻文本进行主题分类的抽象接口。

28、一种面向多模态数据查询的基准测试框架,所述框架包括:

29、所述仿真数据生成器,用于对结构化数据和非结构化数据进行仿真,以生成扩展属性图模型;

30、所述工作负载生成器,用于生成至少一个融合查询任务;

31、所述性能度量计算器,用于使目标系统在扩展属性图模型上执行所述融合查询任务,并根据执行所述融合查询任务的性能指标,得到所述目标系统执行该融合查询任务的基准测试结果。

32、与现有技术相比,本专利技术多模态数据查询的基准评测框架由三个主要素组成:仿真数据生成器、工作负载和性能度量标准。其中仿真数据生成器需要提供规模可控的数据,包含了结构化数据和非结构化数据,并且数据的分布规律需要最大程度的符合真实世界的规律。工作负载的设计中包含了若干组模拟实际应用场景的多模态数据融合查询任务。度量体系定义了衡量评测多模态数据查询性能的统一标准,包括查询响应时间、查询准确率、吞吐量等。多模态数据查询可能需要联合多个系统,为了方便用户接入测试,达到开箱即用的目的,多模态基准测试框架还需要提供了一组通用的抽象接口,让用户自己定义实现的细节。

本文档来自技高网
...

【技术保护点】

1.一种面向多模态数据查询的基准测试方法,其特征在于,将目标系统接入多模态数据查询的基准测试框架后,得到所述目标系统执行融合查询任务的基准测试结果;其中,所述多模态数据查询的基准评测框架包括:仿真数据生成器、工作负载生成器和性能度量计算器;

2.根据权利要求1所述的方法,其特征在于,所述将目标系统接入多模态数据查询的基准测试框架,包括:

3.根据权利要求1所述的方法,其特征在于,所述对结构化数据和非结构化数据进行仿真,以生成扩展属性图模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述获取结构化和非结构化数据集,包括:

5.根据权利要求3所述的方法,其特征在于,对所述初始的扩展属性图模型的规模进行缩放,得到不同规模的扩展属性图模型,包括:

6.根据权利要求1所述的方法,其特征在于,所述融合查询任务包括:结构化和非结构化属性协同过滤、在模式匹配时执行多个非结构化属性协同过滤、基于融合查询的连接操作、基于融合查询的聚合操作、基于融合查询的子图匹配操作、基于非结构化数据的关系挖掘、基于融合查询的最短路径计算、模式匹配时基于指定算法过滤数据和情感分析;其中,所述指定算法包括:人脸识别算法和情感分析算法。

7.根据权利要求1所述的方法,其特征在于,所述性能指标包括:请求响应时间、吞吐量、并发、硬件资源利用率和正确率。

8.根据权利要求1至7任一项所述的方法,其特征在于,非结构化数据的融合查询任务在无本地查询引擎支持的条件下,将非结构化数据语义信息提取的查询操作抽象成了一个人工智能服务,并提供抽象接口;其中所述抽象接口包括:对人脸图片数据进行识别的抽象接口、对情感文本数据进行情感分析的抽象接口和对新闻文本进行主题分类的抽象接口。

9.一种面向多模态数据查询的基准测试框架,其特征在于,所述框架包括:

...

【技术特征摘要】

1.一种面向多模态数据查询的基准测试方法,其特征在于,将目标系统接入多模态数据查询的基准测试框架后,得到所述目标系统执行融合查询任务的基准测试结果;其中,所述多模态数据查询的基准评测框架包括:仿真数据生成器、工作负载生成器和性能度量计算器;

2.根据权利要求1所述的方法,其特征在于,所述将目标系统接入多模态数据查询的基准测试框架,包括:

3.根据权利要求1所述的方法,其特征在于,所述对结构化数据和非结构化数据进行仿真,以生成扩展属性图模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述获取结构化和非结构化数据集,包括:

5.根据权利要求3所述的方法,其特征在于,对所述初始的扩展属性图模型的规模进行缩放,得到不同规模的扩展属性图模型,包括:

6.根据权利要求1所述的方法,其特征在于,所述融合查询任务包括:结构化和非结构化属性协同过滤...

【专利技术属性】
技术研发人员:王华进毛阿龙沈志宏朱小杰
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1