一种图像信息提取方法、装置、存储介质及电子设备制造方法及图纸

技术编号：40345358 阅读：6 留言：0更新日期：2024-02-09 14:31

本发明专利技术属于图像信息技术领域，公开了一种图像信息提取方法、装置、存储介质及电子设备，其中，所述图像信息提取方法包括：获取目标图像并根据第一模型对所述目标图像进行特征提取，得到所述目标图像的文本数据集；根据预设的训练模型对所述文本数据集进行修正处理，得到所述目标图像的初级信息；通过第二模型对所述初级信息进行深度学习训练，得到所述目标图像的高级信息；即通过此设置，本发明专利技术可以对自然场景进行精确而又生动的英文描述，从而达到了加强英文学习的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像信息，尤其涉及一种图像信息提取方法、装置、存储介质及电子设备。

技术介绍

1、在过去传统的英语学习中，练听力、背单词以及做习题等是主要的方式。以上英文学习方式普遍存在的缺陷是，学习者在经过多年的英文学习后，在面对自然中的场景时却仍然很难通过自己所学的英文知识进行表达或描述。针对于此，许多相关的英文学习辅助技术应用而生。目前，现有技术中主要是采用目标检测(object detection)技术对自然场景的物体进行识别，以提取自然场景的图像信息，进而以英文的方式呈现，学习者基于此可以进行相应的场景学习。

2、然而，目标检测技术只会定位并标记出它所训练过的能够识别的物体。更重要的是，它所分配的标签总是来自一个固定集合，因此它也被称为“封闭词汇”检测技术。目标检测技术不可以识别在训练过程中从未见过的标签的物体，另外其也达不到像人类一般，对自然场景进行精确而又生动的英文描述。

技术实现思路

1、鉴于此，本专利技术的目的在于提供一种图像信息提取方法、装置、存储介质及电子设备，旨在对自然场景进行精确而又生动的英文描述，以达到加强英文学习的目的。

2、为实现以上目的，第一方面，本专利技术提供了一种图像信息提取方法，包括：

3、获取目标图像并根据第一模型对所述目标图像进行特征提取，得到所述目标图像的文本数据集；

4、根据预设的训练模型对所述文本数据集进行修正处理，得到所述目标图像的初级信息；

5、通过第二模型对所述初级信息

6、优选的，所述获取目标图像并根据第一模型对所述目标图像进行特征提取，得到所述目标图像的文本数据集包括：

7、获取目标图像；

8、利用从自然语言监督中学习可迁移的视觉模型对所述目标图像进行特征提取；

9、获得所述目标图像的文本数据集。

10、优选的，所述训练模型为经过训练的gpt llm模型，其训练内容包括：

11、基于人工标注英语句式修改数据集，对所述gpt llm模型进行第一微调训练。

12、优选的，所述gpt llm模型的训练内容还包括：

13、基于人工标注英语句子svoca和chunking结构提取数据集，对所述gpt llm模型进行第二微调训练。

14、优选的，所述通过第二模型对所述初级信息进行深度学习训练，得到所述目标图像的高级信息包括：

15、利用vision-llm模型对所述初级信息进行decode生成处理，以得到所述目标图像的高级信息。

16、优选的，所述通过第二模型对所述初级信息进行深度学习训练，得到所述目标图像的高级信息包括：

17、利用vision-llm模型对所述初级信息进行问答学习训练，以得到所述目标图像的高级信息。

18、优选的，所述文本数据集为英文文本数据集。

19、第二方面，本专利技术提供了一种图像信息提取装置，用于实现上述的方法，包括：

20、图像信息提取模块，用于获取目标图像并根据第一模型对所述目标图像进行特征提取，得到所述目标图像的文本数据集；

21、图像信息修正模块，用于根据预设的训练模型对所述文本数据集进行修正处理，得到所述目标图像的初级信息；

22、深度学习训练模块，用于通过第二模型对所述初级信息进行深度学习训练，得到所述目标图像的高级信息。

23、第三方面，本专利技术提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述的方法。

24、第四方面，本专利技术提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的方法。

25、综上所述，与现有技术相比，本专利技术抛弃了传统的基于图像的对象检测技术，进而提供了一种图像信息提取方法、装置、存储介质及电子设备，可以对自然场景进行精确而又生动的英文描述，从而达到了加强英文学习的目的。

本文档来自技高网...

【技术保护点】

1.一种图像信息提取方法，其特征在于，包括：

2.如权利要求1所述的图像信息提取方法，其特征在于，所述获取目标图像并根据第一模型对所述目标图像进行特征提取，得到所述目标图像的文本数据集包括：

3.如权利要求1或2所述的图像信息提取方法，其特征在于，所述训练模型为经过训练的GPT LLM模型，其训练内容包括：

4.如权利要求3所述的图像信息提取方法，其特征在于，所述GPT LLM模型的训练内容还包括：

5.如权利要求1或4所述的图像信息提取方法，其特征在于，所述通过第二模型对所述初级信息进行深度学习训练，得到所述目标图像的高级信息包括：

6.如权利要求1或4所述的图像信息提取方法，其特征在于，所述通过第二模型对所述初级信息进行深度学习训练，得到所述目标图像的高级信息包括：

7.如权利要求1所述的图像信息提取方法，其特征在于，所述文本数据集为英文文本数据集。

8.一种图像信息提取装置，用于实现如权利要求1～7任一项所述的方法，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质存

10.一种电子设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1～7任一项所述的方法。

...

【技术特征摘要】

1.一种图像信息提取方法，其特征在于，包括：

3.如权利要求1或2所述的图像信息提取方法，其特征在于，所述训练模型为经过训练的gpt llm模型，其训练内容包括：

4.如权利要求3所述的图像信息提取方法，其特征在于，所述gpt llm模型的训练内容还包括：

5.如权利要求1或4所述的图像信息提取方法，其特征在于，所述通过第二模型对所述初级信息进行深度学习训练，得到所述目标图像的高级信息包括：

6.如权利要求1或4所述的图...

【专利技术属性】
技术研发人员：段海云，郭一飞，刘雄，
申请(专利权)人：深圳市本牛科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人