【技术实现步骤摘要】
一种基于类脑记忆的无人艇环境感知决策方法及系统
[0001]本专利技术涉及无人艇决策
,特别是涉及一种基于类脑记忆的无人艇环境感知决策方法及系统。
技术介绍
[0002]在无人艇智能决策领域,现有的方法往往是只使用了强化学习,将无人艇的外部环境信息作为输入,设计奖励模型来得到使奖励分数最大化的决策。这一类方法面临的问题是,在现实中复杂海况下外部环境信息很难准确获取。即使获取了全部的外部环境信息之后,训练好的强化学习模型也很难根据复杂的海况做出最精准的决策。
技术实现思路
[0003]本专利技术的目的是提供一种基于类脑记忆的无人艇环境感知决策方法及系统,提高了行动决策的准确性。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种基于类脑记忆的无人艇环境感知决策方法,包括:
[0006]获取无人艇前方环境图像;
[0007]将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连 ...
【技术保护点】
【技术特征摘要】
1.一种基于类脑记忆的无人艇环境感知决策方法,其特征在于,包括:获取无人艇前方环境图像;将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块;采用所述行动指令控制所述无人艇行动;所述图像特征提取器用于提取所述环境图像中的图像特征;所述BERT模型用于从所述图像特征中提取包含文本特征的图像特征编码;所述全连接层用于将所述图像特征编码映射为适用大语言模型识别的图像编码;所述短时场景记忆模块用于预设多个问题,利用所述大语言模型的短时场景记忆按照设定顺序对各个问题进行解答,获得多个答案;所述长时记忆模块用于利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;所述大语言模型为基于强化学习微调后的大语言模型。2.根据权利要求1所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,所述BERT模型为训练过的BERT模型;所述BERT模型中每个Transformer块的自注意力模块和前馈神经网络之间加入了交叉注意力模块;所述BERT模型的训练过程包括:采集无人艇环境数据集;所述无人艇环境数据集中每个样本数据均包括无人艇环境图像和与无人艇环境图像对应的文本描述信息;每个样本数据进行训练时均包括:将无人艇环境图像输入预训练的图像特征提取器,输出样本图像特征;将与无人艇环境图像对应的文本描述信息输入BERT模型,将所述样本图像特征输入到BERT模型中每个Transformer块的交叉注意力模块;所述交叉注意力模块输出的特征经过前馈神经网络得到第一样本图像特征编码;根据第一样本图像特征编码确定图像文本匹配损失;将与无人艇环境图像对应的文本描述信息输入预训练的网络输出第二样本图像特征编码;预训练的网络包括依次连接的自注意力模块和前馈神经网络;根据所述第一样本图像特征编码和所述第二样本图像特征编码确定图像文本对比损失;在BERT模型中每个Transformer块的自注意力模块上添加掩码;将与无人艇环境图像对应的文本描述信息输入添加掩码后的BERT模型,将所述样本图像特征输入到BERT模型中每个Transformer块的交叉注意力模块,所述交叉注意力模块输出的特征经过前馈神经网络得到第三样本图像特征编码;根据所述第三样本图像特征编码和所述第三样本图像特征编码对应的标签数据确定图像文本生成损失;根据图像文本匹配损失、图像文本对比损失和图像文本生成损失优化BERT模型。3.根据权利要求1所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令,具体包括:基于所述大语言模型,利用长时间记忆和上下文学习基于多个答案输出多个指令组成的指令集,并根据所述指令集输出行动指令。
4.根据权利要求3所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,所述大语言模型微调时采用强化学习模型对大语言模型进行微调;所述大语言模型微调的过程包括:构建指令训练集;所述指令训练集...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。