自应本土化语言模型与视觉生成技术融合方法技术

技术编号：39256845 阅读：15 留言：0更新日期：2023-10-30 12:08

本发明专利技术涉及语言图像视觉融合技术领域，公开了自应本土化语言模型与视觉生成技术融合方法，包括以下进行步骤，S1：图像描述，根据给定图片自动生成语言描述，并根据图像算子提取特征，同时SVM检测存在的目的，然后根据目标属性生成文字描述语句；S2：视觉问答，将图像和文字在公共特征空间学习。通过图像描述－视觉问答－文本图像生成－视觉对话－多模台机器翻译等一系列系统程序化的处理步骤，从视觉、语言和行为等三个维度对目前不同的自应本土化语言和视觉技术进行融合，优化了语言模型和视觉技术之间的转化和融合，提高了语言视觉融合转化效率的同时也增加语言视觉模型转化的精度。度。

全部详细技术资料下载

【技术实现步骤摘要】
自应本土化语言模型与视觉生成技术融合方法

[0001]本专利技术涉及语言图像视觉融合
，具体为自应本土化语言模型与视觉生成技术融合方法。

技术介绍

[0002]近年来，深度学习方法已经在计算机视觉、自然语言处理和自动语音识别等各个领域得到了广泛而深入的应用，推动了人脸识别、自动驾驶和语音识别等一系列技术的发展和成熟，在很多目标清晰、规则明确的任务领域，比如物体检测、目标分割、围棋、象棋达到甚至超越了人类的表现。但是当前深度学习领域的研究往往局限在特定领域甚至特定的任务上，对于环境往往也有许多假设或是限制，与通用人工智能或是自主智能体的目标相去甚远。
[0003]视觉与自然语言结合的任务取得了令人瞩目的进展，从早期简单将两部分技术简单串联加和的形式扩展到需要智能体借助视觉和语言理解环境并且采取行动的深度融合，但是绝大部分任务都是基于现有的数据集在模拟的环境中进行，诚然，考虑到目前表现较好的算法均是基于需要大量试错的深度强化学习方法，在真实环境中训练的确会消耗大量的时间与精力，因此，本领域技术人员提出了一种自应本土化语言模型与视觉生成技术融合方法，用来解决上述所存在的技术问题。

技术实现思路

[0004]针对现有技术的不足，本专利技术提供了自应本土化语言模型与视觉生成技术融合方法，解决了语言模型和视觉生成技术在真实环境中训练需要消耗大量时间和精力的问题。
[0005]为实现以上目的，本专利技术通过以下技术方案予以实现：自应本土化语言模型与视觉生成技术融合方法，包括以下进行步骤：/>[0006]S1：图像描述
[0007]根据给定图片自动生成语言描述，并根据图像算子提取特征，同时SVM检测存在的目的，然后根据目标属性生成文字描述语句；
[0008]S2：视觉问答
[0009]将图像和文字在公共特征空间学习，注意力机制使用局部图像特征对不同区域的特征加权解决噪声问题，模块化组合模型引入不同功能的神经网络模块；
[0010]S3：文本图像生成
[0011]在文本图像生成的时候，首先调整网络结构，增加网络深度或者引入多个判别器，然后充分利用文本信息，增加额外约束，从而将文本图像进行分阶段生成；
[0012]S4：视觉对话
[0013]根据文本图像建立视觉－语言模型，然后在文本图像生成的基础建立视觉观察结果，然后利用VLM的概率分布和VNM推断图的连接性，从而实现视觉对话的效果；
[0014]S5：多模台机器翻译
[0015]根据文本内容和图像提供的额外信息翻译成目标语言，并同步定位视频中文本位置，然后基于文本内容推理判断文本描述和图片内容匹配度。
[0016]优选的，所述S1步骤中，根据图像算子提取特征采用的是show and tell和neural talk模型，并且均使用的是CNN+RNN的模式，从而生成的对抗网络、深度强化学习和注意力机制。
[0017]优选的，所述S2步骤中，视觉问答解决方法可划分为联合嵌入模型、注意力机制模型、模块化组合模块和知识库增强模块四类，在本步骤中采用的是联合嵌入模型方法。
[0018]优选的，所述S3步骤中，在对其进行增加额外约束的时候，采用Condlition
‑
GAN机制进行工作，并且在将文本图像进行分阶段生成的时候，采用的是李飞场景图和语义中间层相配合协调作用。
[0019]优选的，所述S4步骤中，采用的是搜索算法，在环境中检索出一个最优指令路径，该路径满足原始指令，是指令中实现目标的最短路径。
[0020]优选的，所述S5步骤中，采用Specia定义单据源语言描述和多余源语言描述图片两类任务，并扩展到多种源语言的同时引入注意力机制分解任务目标，充分发掘图片中的视觉特征。
[0021]本专利技术提供了自应本土化语言模型与视觉生成技术融合方法。具备以下
[0022]有益效果：
[0023]1、本专利技术通过图像描述－视觉问答－文本图像生成－视觉对话－多模台机器翻译等一系列系统程序化的处理步骤，从视觉、语言和行为等三个维度对目前不同的自应本土化语言和视觉技术进行融合，优化了语言模型和视觉技术之间的转化和融合，提高了语言视觉融合转化效率的同时也增加语言视觉模型转化的精度。
[0024]2、本专利技术通过在模拟环境中表现完美的模型迁移到真实环境中的处理方式，降低了语言模型与视觉生成技术训练过程中所消耗的时间和精力。
具体实施方式
[0025]下面将结合本专利技术实施例，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0026]实施例：
[0027]本专利技术实施例提供自应本土化语言模型与视觉生成技术融合方法，包括以下进行步骤：
[0028]S1：图像描述
[0029]根据给定图片自动生成语言描述，并根据图像算子提取特征，同时SVM检测存在的目的，然后根据目标属性生成文字描述语句；
[0030]S2：视觉问答
[0031]将图像和文字在公共特征空间学习，注意力机制使用局部图像特征对不同区域的特征加权解决噪声问题，模块化组合模型引入不同功能的神经网络模块；
[0032]S3：文本图像生成
[0033]在文本图像生成的时候，首先调整网络结构，增加网络深度或者引入多个判别器，然后充分利用文本信息，增加额外约束，从而将文本图像进行分阶段生成；
[0034]S4：视觉对话
[0035]根据文本图像建立视觉－语言模型，然后在文本图像生成的基础建立视觉观察结果，然后利用VLM的概率分布和VNM推断图的连接性，从而实现视觉对话的效果；
[0036]S5：多模台机器翻译
[0037]根据文本内容和图像提供的额外信息翻译成目标语言，并同步定位视频中文本位置，然后基于文本内容推理判断文本描述和图片内容匹配度。
[0038]S1步骤中，根据图像算子提取特征采用的是show and tell和neural talk模型，并且均使用的是CNN+RNN的模式，从而生成的对抗网络、深度强化学习和注意力机制。
[0039]基于视觉的语言模型往往需要环境的先验信息，或者需要使用声音采集器，深度图或从运动中获取的数据以纯几何方法构建三维表述图，或者需要人类指导的语言表述图的构建过程，并且在表述图构造的过程中，即使环境有明显的模式或特征，但是在被完全建模之前也是不能被观察到的。环境构建与路径规划之间的分离使得系统变得脆弱，因此越来越多的研究开始转向端到端的学习方式，即不需要显式的模型或状态估计便可实现从环境图像到路径行为的转换。
[0040]S2步骤中，视觉问答解决方法可划分为联合嵌入模型、注意力机制模型、模块化组合模块和知识库增强模块四类，在本步骤中采用的是联合嵌入模型方法。...

【技术保护点】

【技术特征摘要】
1.自应本土化语言模型与视觉生成技术融合方法，其特征在于，包括以下进行步骤：S1：图像描述根据给定图片自动生成语言描述，并根据图像算子提取特征，同时SVM检测存在的目的，然后根据目标属性生成文字描述语句；S2：视觉问答将图像和文字在公共特征空间学习，注意力机制使用局部图像特征对不同区域的特征加权解决噪声问题，模块化组合模型引入不同功能的神经网络模块；S3：文本图像生成在文本图像生成的时候，首先调整网络结构，增加网络深度或者引入多个判别器，然后充分利用文本信息，增加额外约束，从而将文本图像进行分阶段生成；S4：视觉对话根据文本图像建立视觉－语言模型，然后在文本图像生成的基础建立视觉观察结果，然后利用VLM的概率分布和VNM推断图的连接性，从而实现视觉对话的效果；S5：多模台机器翻译根据文本内容和图像提供的额外信息翻译成目标语言，并同步定位视频中文本位置，然后基于文本内容推理判断文本描述和图片内容匹配度。2.根据权利要求1所述的自应本土化语言模型与视觉生成技术融合方法，其特征在于，所述S1步骤中，根据图像算子提取特征采用的是show and tell和neural talk模型，并且均使用的是CN...

【专利技术属性】
技术研发人员：成建，
申请(专利权)人：江苏众亿国链大数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人