System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及信息处理,并且更具体地,涉及一种植物识别方法、电子设备、非瞬态存储介质和计算机程序产品。
技术介绍
1、多模态大语言模型是一种结合文本和图像等多种不同模态数据的大型神经网络模型。这种模型不仅可以处理文本信息,还可以同时处理其他类型的数据,如图像、音频等。通过同时学习多种模态数据之间的关联性,多模态大语言模型能够更全面地理解和表达信息。多模态大语言模型广泛应用于各种领域,如自然语言处理、计算机视觉、语音识别等。
技术实现思路
1、在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
2、根据本公开的一方面,提供了一种植物识别方法,包括:获取植物图像和关于对所述植物图像中的植物进行识别的问题文本;将所述植物图像和所述问题文本输入到植物识别模型,所述植物识别模型包括第一视觉模型和多模态大语言模型,所述第一视觉模型被配置为接收所述植物图像以提取所述植物图像的第一图像特征,所述多模态大语言模型被配置为接收所述第一图像特征和所述问题文本以对所述植物图像中的植物进行识别,所述植物识别模型被用多模态数据训练,所述多模态数据包括植物图像、关于对所述植物图像中的植物进行识别的问题以及所述问题的答案;以及输出由所述植物识别模型提供的关于对所
3、在一些实施例中,所述植物识别模型还包括不同于所述第一视觉模型的第二视觉模型,所述第二视觉模型被配置为接收所述植物图像以提取所述植物图像的第二图像特征,所述多模态大语言模型被配置为接收所述第一图像特征、所述第二图像特征和所述问题文本以对所述植物图像中的植物进行识别。
4、在一些实施例中,所述第一视觉模型是卷积神经网络变换器模型,所述卷积神经网络变换器模型被用植物图像文本对通过对比学习训练。
5、在一些实施例中,所述卷积神经网络变换器模型先被单独用植物图像文本对通过对比学习预训练,然后与所述多模态大语言模型一起用所述多模态数据进行联合训练。
6、在一些实施例中,所述卷积神经网络变换器模型的训练集包括具有一种或多种分辨率的植物图像和具有一种或多种粒度的标签文本。
7、在一些实施例中,在所述卷积神经网络变换器模型的训练过程中,包括多个标签的标签文本中的一个或多个标签被随机选择用于提取所述标签文本的文本特征。
8、在一些实施例中,所获取的问题文本包括关于对所述植物图像中的植物的种类进行识别的问题文本,所述多模态数据包括植物图像、询问所述植物图像中的植物的种类的问题以及指示所述植物图像中的所述植物的种类的答案,所述植物图像文本对包括植物图像与植物拉丁名的对、植物图像与植物特征标签集合的对中的至少一者。
9、在一些实施例中,所获取的问题文本包括关于对所述植物图像中的植物的病症进行识别的问题文本,所述多模态数据包括植物图像、询问所述植物图像中的植物的病症的问题以及指示所述植物图像中的所述植物的病症的答案,所述植物图像文本对包括植物图像与植物病症名的对、植物图像与病症特征标签集合的对中的至少一者。
10、在一些实施例中,植物识别方法还包括:响应于所述植物识别模型无法提供关于对所述植物图像中的植物进行识别的答案文本,输出关于对所述植物图像中的植物进行识别的互动问题;获取所述互动问题的回复,并且:响应于所述回复包括回复图像,将利用所述第一视觉模型对所述回复图像提取的图像特征提供给所述多模态大语言模型,和/或响应于所述回复包括回复文本,将所述回复文本提供给所述多模态大语言模型;以及输出由所述植物识别模型新提供的关于对所述植物图像中的植物进行识别的答案文本。
11、在一些实施例中,植物识别方法还包括:响应于所述植物识别模型无法提供关于对所述植物图像中的植物进行识别的答案文本,输出关于对所述植物图像中的植物进行识别的互动问题;获取所述互动问题的回复,并且:响应于所述回复包括回复图像,将分别利用所述第一视觉模型和所述第二视觉模型对所述回复图像提取的图像特征提供给所述多模态大语言模型,和/或响应于所述回复包括回复文本,将所述回复文本提供给所述多模态大语言模型;以及输出由所述植物识别模型新提供的关于对所述植物图像中的植物进行识别的答案文本。
12、在一些实施例中,所获取的问题文本包括关于对所述植物图像中的植物的种类进行识别的问题文本,所述互动问题包括请求所述植物的一个或多个特征部位的特写图像、所述植物图像的拍摄时间、所述植物图像的拍摄地点中的一者或多者。
13、在一些实施例中,所获取的问题文本包括关于对所述植物图像中的植物的病症进行识别的问题文本,所述互动问题包括请求所述植物的一个或多个发病部位的特写图像、所述植物图像的拍摄时间、所述植物图像的拍摄地点、所述植物的养护细节中的一者或多者。
14、在一些实施例中,所述答案文本包括所述植物的病症,并且所述答案文本还包括所述病症的原因、所述病症的处置方法、对所述植物的养护建议中的一者或多者。
15、在一些实施例中,所述植物识别模型还被用第二多模态数据训练,所述第二多模态数据包括图像、询问图像中的对象的位置的问题和所述问题的答案。
16、在一些实施例中,在将所述植物图像和所述问题文本输入到所述植物识别模型后,所述植物识别模型还被配置为:由所述多模态大语言模型基于所述植物图像和所述问题文本生成询问所述植物图像中的对象的位置的问题,并基于所述植物图像和所生成的问题生成所述植物图像中的所述对象的位置的答案;根据所述植物图像中的所述对象的位置从所述植物图像中裁剪出所述对象所在区域的局部图像;由所述第一视觉模型接收所述局部图像以提取出第三图像特征;由所述多模态大语言模型接收所述第一图像特征、所述第三图像特征和所述问题文本以对所述植物图像中的植物进行识别。
17、在一些实施例中,所述植物识别模型还被用第二多模态数据训练,所述第二多模态数据包括图像、询问图像中的对象的位置的问题和所述问题的答案,以及其中,在将所述植物图像和所述问题文本输入到所述植物识别模型后,所述植物识别模型被配置为:由所述多模态大语言模型基于所述植物图像和所述问题文本生成询问所述植物图像中的对象的位置的问题,并基于所述植物图像和所生成的问题生成所述植物图像中的所述对象的位置的答案;根据所述植物图像中的所述对象的位置从所述植物图像中裁剪出所述对象所在区域的局部图像;由所述第一视觉模型接收所述局部图像以提取出第三图像特征;由所述第二视觉模型接收所述局部图像以提取出第四图像特征;由所述多模态大语言模型接收所述第一图像特征、所述第二图像特征、所述第三图像特征、所述第四图像特征和所述问题文本以对所述植物图像中的植物进行识别。
18、在一些实施例中,本文档来自技高网...
【技术保护点】
1.一种植物识别方法,包括:
2.根据权利要求1所述的植物识别方法,其中,所述植物识别模型还包括不同于所述第一视觉模型的第二视觉模型,所述第二视觉模型被配置为接收所述植物图像以提取所述植物图像的第二图像特征,所述多模态大语言模型被配置为接收所述第一图像特征、所述第二图像特征和所述问题文本以对所述植物图像中的植物进行识别。
3.根据权利要求1或2所述的植物识别方法,其中,所述第一视觉模型是卷积神经网络变换器模型,所述卷积神经网络变换器模型被用植物图像文本对通过对比学习训练。
4.根据权利要求3所述的植物识别方法,其中,所述卷积神经网络变换器模型先被单独用植物图像文本对通过对比学习预训练,然后与所述多模态大语言模型一起用所述多模态数据进行联合训练。
5.根据权利要求3所述的植物识别方法,其中,所述卷积神经网络变换器模型的训练集包括具有一种或多种分辨率的植物图像和具有一种或多种粒度的标签文本。
6.根据权利要求5所述的植物识别方法,其中,在所述卷积神经网络变换器模型的训练过程中,包括多个标签的标签文本中的一个或多个标签被随机选
7.根据权利要求3所述的植物识别方法,其中,所获取的问题文本包括关于对所述植物图像中的植物的种类进行识别的问题文本,所述多模态数据包括植物图像、询问所述植物图像中的植物的种类的问题以及指示所述植物图像中的所述植物的种类的答案,所述植物图像文本对包括植物图像与植物拉丁名的对、植物图像与植物特征标签集合的对中的至少一者。
8.根据权利要求3或7所述的植物识别方法,其中,所获取的问题文本包括关于对所述植物图像中的植物的病症进行识别的问题文本,所述多模态数据包括植物图像、询问所述植物图像中的植物的病症的问题以及指示所述植物图像中的所述植物的病症的答案,所述植物图像文本对包括植物图像与植物病症名的对、植物图像与病症特征标签集合的对中的至少一者。
9.根据权利要求1所述的植物识别方法,还包括:
10.根据权利要求2所述的植物识别方法,还包括:
11.根据权利要求9或10所述的植物识别方法,其中,所获取的问题文本包括关于对所述植物图像中的植物的种类进行识别的问题文本,所述互动问题包括请求所述植物的一个或多个特征部位的特写图像、所述植物图像的拍摄时间、所述植物图像的拍摄地点中的一者或多者。
12.根据权利要求9或10所述的植物识别方法,其中,所获取的问题文本包括关于对所述植物图像中的植物的病症进行识别的问题文本,所述互动问题包括请求所述植物的一个或多个发病部位的特写图像、所述植物图像的拍摄时间、所述植物图像的拍摄地点、所述植物的养护细节中的一者或多者。
13.根据权利要求12所述的植物识别方法,其中,所述答案文本包括所述植物的病症,并且所述答案文本还包括所述病症的原因、所述病症的处置方法、对所述植物的养护建议中的一者或多者。
14.根据权利要求1所述的植物识别方法,其中,所述植物识别模型还被用第二多模态数据训练,所述第二多模态数据包括图像、询问图像中的对象的位置的问题和所述问题的答案。
15.根据权利要求14所述的方法,其中,在将所述植物图像和所述问题文本输入到所述植物识别模型后,所述植物识别模型还被配置为:
16.根据权利要求2所述的方法,其中,所述植物识别模型还被用第二多模态数据训练,所述第二多模态数据包括图像、询问图像中的对象的位置的问题和所述问题的答案,以及其中,在将所述植物图像和所述问题文本输入到所述植物识别模型后,所述植物识别模型被配置为:
17.根据权利要求15或16所述的方法,其中,所述局部图像在被视觉模型接收之前被放大。
18.根据权利要求15或16所述的方法,其中,所述对象包括植物、或植物的一个或多个特征部位、或植物的一个或多个发病部位。
19.根据权利要求2所述的植物识别方法,其中,所述第二视觉模型是多模态对比学习预训练CLIP模型。
20.根据权利要求1所述的植物识别方法,还包括:
21.根据权利要求2所述的植物识别方法,还包括:
22.一种电子设备,包括:
23.一种其上存储有计算机可执行指令的非瞬态存储介质,所述计算机可执行指令在被计算机执行时使得计算机执行根据权利要求1至21中任一项所述的植物识别方法。
24.一种计算机程序产品,所述计算机程序产品包括指令,所述指令在被处理器执行时实现根据权利要求1至21中任一项所述的植物识别方法。
...【技术特征摘要】
1.一种植物识别方法,包括:
2.根据权利要求1所述的植物识别方法,其中,所述植物识别模型还包括不同于所述第一视觉模型的第二视觉模型,所述第二视觉模型被配置为接收所述植物图像以提取所述植物图像的第二图像特征,所述多模态大语言模型被配置为接收所述第一图像特征、所述第二图像特征和所述问题文本以对所述植物图像中的植物进行识别。
3.根据权利要求1或2所述的植物识别方法,其中,所述第一视觉模型是卷积神经网络变换器模型,所述卷积神经网络变换器模型被用植物图像文本对通过对比学习训练。
4.根据权利要求3所述的植物识别方法,其中,所述卷积神经网络变换器模型先被单独用植物图像文本对通过对比学习预训练,然后与所述多模态大语言模型一起用所述多模态数据进行联合训练。
5.根据权利要求3所述的植物识别方法,其中,所述卷积神经网络变换器模型的训练集包括具有一种或多种分辨率的植物图像和具有一种或多种粒度的标签文本。
6.根据权利要求5所述的植物识别方法,其中,在所述卷积神经网络变换器模型的训练过程中,包括多个标签的标签文本中的一个或多个标签被随机选择用于提取所述标签文本的文本特征。
7.根据权利要求3所述的植物识别方法,其中,所获取的问题文本包括关于对所述植物图像中的植物的种类进行识别的问题文本,所述多模态数据包括植物图像、询问所述植物图像中的植物的种类的问题以及指示所述植物图像中的所述植物的种类的答案,所述植物图像文本对包括植物图像与植物拉丁名的对、植物图像与植物特征标签集合的对中的至少一者。
8.根据权利要求3或7所述的植物识别方法,其中,所获取的问题文本包括关于对所述植物图像中的植物的病症进行识别的问题文本,所述多模态数据包括植物图像、询问所述植物图像中的植物的病症的问题以及指示所述植物图像中的所述植物的病症的答案,所述植物图像文本对包括植物图像与植物病症名的对、植物图像与病症特征标签集合的对中的至少一者。
9.根据权利要求1所述的植物识别方法,还包括:
10.根据权利要求2所述的植物识别方法,还包括:
11.根据权利要求9或10所述的植物识别方法,其中,所获取的问题文本包括关于对所述植物图像中的植物的种类进行识别的问题文本,所述互动问题包...
【专利技术属性】
技术研发人员:徐青松,何涛,
申请(专利权)人:杭州睿胜软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。