一种基于单目运动相机语言模型的行人运动预测方法及系统技术方案

技术编号：40594829 阅读：36 留言：0更新日期：2024-03-12 21:57

本发明专利技术公开了一种基于单目运动相机语言模型的行人运动预测方法及系统，包括以下步骤：S1，利用单目相机获取彩色图像的步骤；S2，对行人目标进行识别的步骤；S3，将一段时间间隔内的视频数据传入含视频或图片模态的语言模型，通过对语言模型的Prompt得到场景中行人动作的自然语言描述；同时，将两段时间间隔内的视频数据通过即时定位和地图构建技术得到自车和行人的运动轨迹坐标。本发明专利技术将相机传感器得到的图像数据以及其经过即时定位与地图构建等技术得到的自车和行人的坐标变换数据传入语言模型，借助语言模型的推理能力，预测行人该下一步的轨迹(位置)。同时，本发明专利技术无需雷达和深度相机等便能在三维空间重建并预测行人轨迹，减少了硬件开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动驾驶、人工智能等，更具体地讲，涉及一种基于车载单目运动相机一段时间的输入，经即时定位与地图构建的预处理后得到自身和行人坐标变换信息，再经由语言模型处理得到接下来若干时刻行人意图和轨迹的预测结果的方法及系统。

技术介绍

1、近年来，基于人工智能、云计算、大数据等技术的不断发展，自动驾驶领域的技术也取得了快速进步。自动驾驶技术的关键技术包括环境感知和定位、决策与规划、控制与执行等等。其中，环境感知是指通过各种传感器获取周围环境信息，包括路面、静态物体和动态物体(尤其是其他车辆和行人)的感知；决策与规划是指根据环境感知等信息，通过一定的算法制定行车路线和行车策略；控制与执行是指根据决策与规划的结果，通过线控系统等将控制命令传递到机械层面，控制车辆进行相应的操作。其中，在环境感知和决策方面，一个比较重要的任务即是感知到路面上行人的存在，并合理预测其接下来可能的轨迹，供接下来的决策规划参考。

2、例如cn116823871a公开了一种基于完备交互网络的行人轨迹预测方法，构建数据预处理模块，得到观测行人轨迹的高维表示及...

【技术保护点】

1.一种基于单目运动相机语言模型的行人运动预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，所述S2的计算步骤包括：

3.根据权利要求2所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，利用YOLO目标识别算法调用单目相机获取彩色图像视频流的识别帧率为fd，若识别结果包含行人且距离上一次进行步骤S3以及之后的操作时间超过tp(例如可设为3秒)，则进入步骤S3，否则重复步骤S2；具体为：

4.根据权利要求3所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，在S3中...

【技术特征摘要】

1.一种基于单目运动相机语言模型的行人运动预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，所述s2的计算步骤包括：

3.根据权利要求2所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，利用yolo目标识别算法调用单目相机获取彩色图像视频流的识别帧率为fd，若识别结果包含行人且距离上一次进行步骤s3以及之后的操作时间超过tp(例如可设为3秒)，则进入步骤s3，否则重复步骤s2；具体为：

4.根据权利要求3所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，在s3中，将一段时间间隔内的视频数据传入含视频或图片模态的语言模型，通过对语言模型的prompt(提示)得到场景中行人动作的自然语言描述；其中，如果采用图片模态的语言模型，需将不同关键帧的图片分别作为输入，并将描述结果按照时间顺序排列；

5.根据权利要求4所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，通过以下采样的方法减少轨迹的时间密度：

6.根据权利要求4或5所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，将权利要求4或5中运算的结果，包括对场景的自然语言描述、自车和行人的运动轨迹坐标，作为大型语言模型的提示数据，得到下一时刻的行人坐标预测结果。

7.根据权利要求6所述的基于单目运动相机语言模型的行人运动预测方法，其特征在于，除此之外，按照下表的示例补充输入坐标定义...

【专利技术属性】
技术研发人员：何弢，严骏驰，廖文龙，张億一，胡新浩，张健夫，
申请(专利权)人：酷哇科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人