一种应用于智能建筑的机器视觉行为意图预测方法技术

技术编号:32650051 阅读:25 留言:0更新日期:2022-03-12 18:40
本发明专利技术公开一种应用于智能建筑的机器视觉行为意图预测方法,包括以下步骤:行人检测、行人跟踪、动作描述时空算子的建立、动作检测和时间边界界定、环境状态变化检测、关键动作聚类以及行为预测;本发明专利技术通过对历史视频数据进行学习,不依赖人为设定规则,使用局限性较小,通过对环境状态变化前的动作集合进行聚类,得到关键动作向量,对视频中人的行为和环境状态变化进行分析并建立联系,预测关键动作发生时所需执行的环境状态变化,当视频中发生关键动作时,输出相应的预测信号以便自动执行,具有较高的准确性,且达到了实时性的要求,可以提高智能建筑智能化程度,一定程度上减少人的手动操作,给人的日常活动带来便利。给人的日常活动带来便利。给人的日常活动带来便利。

【技术实现步骤摘要】
一种应用于智能建筑的机器视觉行为意图预测方法


[0001]本专利技术涉及行为预测
,尤其涉及一种应用于智能建筑的机器视觉行为意图预测方法。

技术介绍

[0002]现在,人们对于生活质量有着越来越高的要求,并且由于科学技术在近年来得到了突飞猛进式的发展,使得越来越多的智能建筑开始出现,来满足用户的各种需求,以提高用户的生活品质,当用户具备相应的行为动作后,相对应的该智能建筑就能够提供相应的功能来满足用户的需求,以实现智能化的生活环境,而这种智能化的实现一般依靠行为预测技术,行为预测是针对视频中人的行为进行分析,通过一段时间的视频序列学习,建立行为与环境状态变化之间的联系,当关键动作发生时预测并自动执行相应的环境状态变化,行为预测的目的是使建筑更加智能化,一定程度上减少人的手动操作,给人的日常活动带来便利。
[0003]然而现有的一些行为预测方法还不够成熟,大都需要依靠人为设定规则,使用局限性较大,且由于现实中存在许多干扰因素,从而导致现有行为预测方法往往无法直接得出用户关键动作和环境状态变化之间的关联联系,不能实时准确的识别并预测用户的行为动作,进而无法真正实现智能化,不能给用户带来良好的智能化体验感,因此,本专利技术提出一种应用于智能建筑的机器视觉行为意图预测方法以解决现有技术中存在的问题。

技术实现思路

[0004]针对上述问题,本专利技术的目的在于提出一种应用于智能建筑的机器视觉行为意图预测方法,解决现有行为预测方法不能实时准确的识别并预测用户行为动作的问题。
[0005]为了实现本专利技术的目的,本专利技术通过以下技术方案实现:一种应用于智能建筑的机器视觉行为意图预测方法,包括以下步骤:S1、先构建行人检测模型,利用计算机视觉技术判断视频图像序列中是否存在行人并给予精确定位,并对行人图片进行采集,再利用残差网络对行人图片进行特征提取,采用多尺度检测模块检测不同尺度的行人,接着由残差网络的算法全连接层基于先验框回归输出行人检测的边界框、置信度和类别概率,得到行人检测结果;S2、先对S1中视频流的行人检测结果进行数据关联,再将视频相邻帧同一个目标关联匹配,接着采用独立的跟踪器追踪每一个行人并赋予ID,获得行人的运动轨迹信息;S3、依据行人的运动轨迹信息,通过包含视觉、运动、概念和语音的多模态信息构建时空算子,利用构建的时空算子描述场景中行人的相关动作,分别为行人与实体间的交互关系以及行人在特定区域的运动方向,再以标准化的向量形式表示;S4、根据场景中行人相关动作的描述,在场景中行人的动作不存在时间重叠的情况下,采用两个动作存储器分别记录行人与实体交互以及行人在特定区域的运动方向,实现动作检测和时间边界界定;
S5、通过图像亮度检测环境光线强度,通过光线强度的瞬时大幅变化间接判断开关行为,基于开关灯时刻的亮度值动态更新环境的明暗边界并将参数二值化,当光线较暗为0,当光线较亮为1,实现环境状态变化检测;S6、通过统计不同视频片段环境状态变化前的动作集合,聚类出不同片段间存在的共同事件,即为关键动作,具体为:采用基于密度的聚类算法,将簇定义为密度相连的点的最大集合,在具有噪声的空间数据库中发现任意形状的簇,基于密度对动作向量进行聚类,一个对象在其半径Eps内含有超过MmPts数目的点,则该对象为核心点,将动作向量划分为以关键动作向量为核心点的簇和噪声点;S7、针对每个环境状态变化聚类出关键动作并存储预测模型,在算法预测阶段加载预测模型,当关键动作发生时输出相应环境状态变化的预测信号,对无关动作不进行预测。
[0006]进一步改进在于:所述S1中,所述行人检测模型基于COCO数据集训练,并通过脚本提取多类目标数据集中的行人数据集,得到预训练模型,在预训练模型的基础上迁移学习得到针对行人的检测模型。
[0007]进一步改进在于:所述S2中,视频相邻帧时间间隔无法满足关联条件时,依据相邻帧行人间的距离或边界框的交并比实现关联,当行人间存在遮挡或交互行为时,采用距离和行人表观特征融合度量进行关联。
[0008]进一步改进在于:所述S2中,获得行人的运动轨迹信息的具体流程如下:A1、当t1时刻行人首次出现时,经多帧确认后创建独立标识的跟踪器进行跟踪,当行人离开视野时删除跟踪器;A2、接着采用卡尔曼滤波器基于线性等速模型预测行人从首次出现到离开视野之间的帧间位移,并估计其下一帧t2时刻的位置,再计算t2时刻检测结果和t1时刻预测边界框之间的马氏距离,计算分配cost矩阵并使用匈牙利算法求解:其中,d
j
表示第j个检测框的位置,y
i
表示第i个追踪器对目标的预测位置,S
i
是轨迹由卡尔曼滤波器预测得到的在当前观测空间的协方差矩阵,马氏距离通过计算检测位置和平均追踪位置之间的标准差将状态测量的不确定性进行考虑,若关联的马氏距离小于指定阈值t
(1)
,则设置运动状态关联成功,得到行人检测结果;A3、随后采用深度学习特征提取网络提取行人检测结果的表观特征,之后计算相邻帧特征间的余弦距离,并基于最小余弦距离实现关联匹配;A4、当相邻帧行人运动信息和表观特征同时关联,在跟踪器中实时更新行人的位置信息,并得到跟踪器连续时刻的坐标点;A5、最后将跟踪器连续时刻的坐标点集合作为行人的运动轨迹信息。
[0009]进一步改进在于:所述S3中,人与实体间的交互关系主要通过人和实体边界框的拓扑关系来表示,相交或包含关系表示两者间存在交互行为,通过IoU表示:人在特定区域的运动方向通过行人持续特定时间的运动轨迹来反映,当行人轨迹
跨越该区域时,记录其运动方向。
[0010]进一步改进在于:所述S4中,当行人初次接触实体时,记录当前动作,以时间边界为接触的起止时刻,当行人进入特定区域时,为避免步态曲线变化的影响,对特定时间段内的轨迹进行持续分析,当行人跨越该区域时判定其运动方向。
[0011]进一步改进在于:所述S4中,针对多人动作检测,对特定区域相邻帧跟踪器进行交叉验证,分析跟踪器的出现和消失,在动态维度下将动作提取器与行人ID关联,并在特定时间段内对每个目标持续跟踪以确定运动方向。
[0012]进一步改进在于:所述S6中,基于密度的聚类算法具体流程为:B1、若一个点x的ε邻域包含多余m个对象,则创建一个x作为核心对象的新簇,其中ε邻域为给定对象在半径ε内的区域,密度为ε邻域中x的密度,是一个整数值,依赖于半径ε;B2、寻找并合并核心对象直接密度可达的对象,其中直接密度可达为给定一个对象集合X,如果y在x的ε邻域内,且x为一个核心对象,则对象y从对象x出发为直接密度可达的;B3、若没有新点用于更新簇时,算法结束。
[0013]进一步改进在于:所述S7中,在一个动作发生的连续时间段内仅执行一次预测,以明确各动作的时间边界。
[0014]本专利技术的有益效果为:本专利技术通过对历史视频数据进行学习,不依赖人为设定规则,使用局限性较小,通过对环境状态变化前的动作集合进行聚类,得到关键动作向量,对视频中人的行为和环境状态变化进行分析本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于智能建筑的机器视觉行为意图预测方法,其特征在于,包括以下步骤:S1、先构建行人检测模型,利用计算机视觉技术判断视频图像序列中是否存在行人并给予精确定位,并对行人图片进行采集,再利用残差网络对行人图片进行特征提取,采用多尺度检测模块检测不同尺度的行人,接着由残差网络的算法全连接层基于先验框回归输出行人检测的边界框、置信度和类别概率,得到行人检测结果;S2、先对S1中视频流的行人检测结果进行数据关联,再将视频相邻帧同一个目标关联匹配,接着采用独立的跟踪器追踪每一个行人并赋予ID,获得行人的运动轨迹信息;S3、依据行人的运动轨迹信息,通过包含视觉、运动、概念和语音的多模态信息构建时空算子,利用构建的时空算子描述场景中行人的相关动作,分别为行人与实体间的交互关系以及行人在特定区域的运动方向,再以标准化的向量形式表示;S4、根据场景中行人相关动作的描述,在场景中行人的动作不存在时间重叠的情况下,采用两个动作存储器分别记录行人与实体交互以及行人在特定区域的运动方向,实现动作检测和时间边界界定;S5、通过图像亮度检测环境光线强度,通过光线强度的瞬时大幅变化间接判断开关行为,基于开关灯时刻的亮度值动态更新环境的明暗边界并将参数二值化,当光线较暗为0,当光线较亮为1,实现环境状态变化检测;S6、通过统计不同视频片段环境状态变化前的动作集合,聚类出不同片段间存在的共同事件,即为关键动作,具体为:采用基于密度的聚类算法,将簇定义为密度相连的点的最大集合,在具有噪声的空间数据库中发现任意形状的簇,基于密度对动作向量进行聚类,一个对象在其半径Eps内含有超过MmPts数目的点,则该对象为核心点,将动作向量划分为以关键动作向量为核心点的簇和噪声点;S7、针对每个环境状态变化聚类出关键动作并存储预测模型,在算法预测阶段加载预测模型,当关键动作发生时输出相应环境状态变化的预测信号,对无关动作不进行预测。2.根据权利要求1所述的一种应用于智能建筑的机器视觉行为意图预测方法,其特征在于:所述S1中,所述行人检测模型基于COCO数据集训练,并通过脚本提取多类目标数据集中的行人数据集,得到预训练模型,在预训练模型的基础上迁移学习得到针对行人的检测模型。3.根据权利要求1所述的一种应用于智能建筑的机器视觉行为意图预测方法,其特征在于:所述S2中,视频相邻帧时间间隔无法满足关联条件时,依据相邻帧行人间的距离或边界框的交并比实现关联,当行人间存在遮挡或交互行为时,采用距离和行人表观特征融合度量进行关联。4.根据权利要求1所述的一种应用于智能建筑的机器视觉行为意图预测方法,其特征在于:所述S2中,获得行人的运动轨迹信息的具体流程如下:A1、当t1时刻行人首次出现时,经多帧确认后创建独立标识的跟踪器进行跟踪,当行人离开视野时删除跟踪器;A2、接着采用卡尔曼滤波器基于线性等速模型预测行人...

【专利技术属性】
技术研发人员:周小平王佳郑洋
申请(专利权)人:盈嘉互联上海建筑科技有限公司深圳市盈嘉互联科技有限公司盈嘉互联北京智慧科技有限公司嘉兴乌镇盈嘉千镇科技有限公司深圳前海盈嘉数据服务有限公司佛山市盈嘉智慧空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1