一种对计算机生成多模态数据判定并位置标注的系统和方法技术方案

技术编号：40958935 阅读：4 留言：0更新日期：2024-04-18 20:36

本发明专利技术公开了一种对计算机生成多模态数据判定并位置标注的系统和方法，包括模态数据获取单元、数据特征获取单元、特征向量分析单元和可视化显示单元，本发明专利技术涉及计算机技术领域，解决了不能很好地将数据与实际贴合，从而导致存在精准度的技术问题，本发明专利技术通过对多模态数据进行数据特征提取，并根据数据特征来进行合理的分析，从而选取合适的数据来进行建模处理，一方面同时数据特征进行选取能够保证数据的精准度，其次利用数据特征综合进行向量分析计算，从而选取合适的建模决策信息，进一步地能够提高数据的真实性和适用性，减小后续使用过程中出现的误差。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体为一种对计算机生成多模态数据判定并位置标注的系统和方法。

技术介绍

1、相关技术中，依据处理的数据类型不同，人工智能
中应用层的任务，被划分为：自然语言处理、计算机视觉、语音识别等，这种以任务为导向的划分方式，造成了普遍只关注单一模态的数据，设计针对单模态数据理解的技术方案，而忽视了ai需要综合学习多模态数据的需求。

2、根据申请号为cn202110781928.8的专利显示，该专利通过获取多模态数据；其中，多模态数据中包括至少一种单模态数据和至少一种成对pair多模态数据；将单模态数据和pair多模态数据输入至解耦注意力变换transformer网络模型，分别生成语义元素token语义表示特征和跨模态语义表示特征，对解耦注意力transformer网络模型进行训练，由此，使解耦注意力变换transformer网络模型有效利用多种不同模态数据互相增强，从多模态数据中获得更鲁棒和更强大的通用语义表示能力，还能够使用统一的网络结构模型处理不同模态的数据，同时执行不同模态数据的理解和生成任务，具有更精确的场景认知和更综合的逻辑推理能力。

3、但是部分现有的多模态数据在生成的时候，由于是根据数据特征进行生成从而建立对应的模型，但是对于特征数据选取建立模型的时候不能很好地进行实际贴合，进一步的会导致生成的模型存在一定的不精准问题。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种对计算机生成多模态数据判定并位置标注的系统和方法

2、为实现以上目的，本专利技术通过以下技术方案予以实现：一种对计算机生成多模态数据判定并位置标注的系统，包括模态数据获取单元、数据特征获取单元、特征向量分析单元和可视化显示单元。

3、模态数据获取单元，用于对多种模态数据进行获取，同时将获取到的模态数据传输到数据特征获取单元，其中多种模态数据包括：文本模态数据、图像模态数据和音频模态数据。

4、数据特征获取单元，用于对获取到的多种模态数据进行分析，并根据不同的模态数据采用不同的计算方式对其数据特征进行计算获取，同时将获取到的数据特征传输到特征向量分析单元，且数据特征包括：视觉特征、语义特征和频谱特征，且生成数据特征的具体方式如下：

5、对文本模态数据的分析方式为：利用transformer模型对文本模态数据的数据特征进行提取，并将该数据特征记作语义特征。

6、对图像模态数据的分析方式为：使用vision transformer对图像模态数据的数据特征进行提取，同时将对应的数据特征记作视觉特征。

7、对音频模态数据的分析方式为：使用transformer模型对音频模态数据的数据进行提取，并将该数据特征记作频谱特征，具体来说，梅尔频率倒谱系数是基于倒频谱计算出来的系数，而倒频谱与常规的对数倒频谱的主要区别在于其频带的划分方式。

8、特征向量分析单元，用于获取到传输的数据特征，并根据数据特征计算其对应的特征向量，同时根据计算得到的特征向量来判断对应模态数据的判决结果，接着根据特征向量生成最终决策信息，并将最终决策信息传输到可视化显示单元，且生成最终决策信息的具体方式为：

9、s1：获取到语义特征、视觉特征和音频特征，并分别将其记作yt、st和wt，接着将其中任意两个数据特征代入公式计算得到语义特征和视觉特征对应的特征向量q1，其中a和b均为预设比例系数，同理根据上述公式分别计算得到q2和q3，且q2表示为语义特征与音频特征对应的特征向量，q3表示为视觉特征与音频特征对应的特征向量；

10、s2：接着将计算得到的q1、q2和q3与预设值qy进行比较，且预设值qy为判决系数，具体数值由操作人员自行设定，若q1、q2和q3中存在任一满足大于预设值qy时，则选取对应的数据特征进行融合判决，并生成决策信息，若q1、q2和q3中存在两个及以上满足大于预设值qy时，则进一步地对数据特征进行分析；

11、s3：当存在两个满足大于预设值qy时，获取到特征向量qi，且i＝1、2和3，同时获取到特征向量qi对应的模态数据特征，具体地，此处得到的模态数据特征包括语义特征、视觉特征和音频特征，接着将模态数据特征分别代入公式计算得到匹配值pi，其中i＝1、2、3，e为自然常数，且e的取值为2.71；具体地，将q1、q2和q3分别代入得到计算公式中，计算得到对应的p1、p2和p3。

12、s4：将计算出来的p1、p2和p3按照从小到大进行排序，同时将三者中数值最小值进行剔除，保留剩下的两个模态数据特征，并生成决策信息。

13、可视化显示单元，用于获取到传输的决策信息，并对决策信息进行标注，并结合标准信息生成对应的显示信息，且生成显示信息的具体方式如下：

14、获取到决策信息对应的模态数据特征，同时对其进行标记，接着以模态数据特征生成对应的模型，并生成对应的显示信息，接着将显示信息通过显示设备显示给操作人员。具体的显示模型可以通过表格、饼状图、柱状图的形式进行对应的显示。

15、一种对计算机生成多模态数据判定并位置标注的系统的生成方法，该方法具体包括以下步骤：

16、步骤一：对多种模态数据进行获取；

17、步骤二：对获取到的多种模态数据特性进行提取，根据不同类型模态数据采用不同的提取方式；

18、步骤三：对提取到的数据特征进行特征向量计算，同时将计算得到的特征向量与预设值比较；

19、步骤四：根据比较结果筛选合适的特征数据进行判决，并生成对应的决策信息；

20、步骤五：将生成的决策信息进行标注和可视化处理。

21、本专利技术提供了一种对计算机生成多模态数据判定并位置标注的系统和方法。与现有技术相比具备以下有益效果：

22、本专利技术通过对多种模态数据进行数据特征提取，并根据数据特征来进行合理的分析，从而选取合适的数据来进行建模处理，一方面同时数据特征进行选取能够保证数据的精准度，其次利用数据特征综合进行向量分析计算，从而选取合适的建模决策信息，进一步地能够提高数据的真实性和适用性，减小后续使用过程中出现的误差。

本文档来自技高网...

【技术保护点】

1.一种对计算机生成多模态数据判定并位置标注的系统，其特征在于，包括：多模态数据获取单元、数据特征获取单元、特征向量分析单元和可视化显示单元；

2.根据权利要求1所述的一种对计算机生成多模态数据判定并位置标注的系统，其特征在于，所述多模态数据包括：文本模态数据、图像模态数据和音频模态数据。

3.根据权利要求1所述的一种对计算机生成多模态数据判定并位置标注的系统，其特征在于，所述数据特征获取单元对模态数据进行特征提取的方式为：

4.根据权利要求1所述的一种对计算机生成多模态数据判定并位置标注的系统，其特征在于，所述特征向量分析单元生成决策信息的具体方式为：

5.根据权利要求4所述的一种对计算机生成多模态数据判定并位置标注的系统，其特征在于，所述S2中对相反情况的具体分析方式为：

6.根据权利要求1所述的一种对计算机生成多模态数据判定并位置标注的系统，其特征在于，所述可视化显示单元，用于获取到传输的决策信息生成显示信息的具体方式为：

7.执行权利要求1-6任一所述的一种对计算机生成多模态数据判定并位置标注的系统的

...

【技术特征摘要】

3.根据权利要求1所述的一种对计算机生成多模态数据判定并位置标注的系统，其特征在于，所述数据特征获取单元对模态数据进行特征提取的方式为：

4.根据权利要求1所述的一种对计算机生成多模态数据判定...

【专利技术属性】
技术研发人员：钟华喜，肖方良，
申请(专利权)人：东莞市毅豪电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人