一种基于多模态数据的人机交互方法技术

技术编号:46627097 阅读:0 留言:0更新日期:2025-10-14 21:24
本发明专利技术涉及人机交互技术领域,提供了一种基于多模态数据的人机交互方法,通过部署用于工业运维与巡检的采集设备,定时检测工业环境的传输条件,划分对应级别进行采样处理;对工业运维与巡检工作的流程建立对应语义标签和模板,下发到设备中进行调用,同时对偏差项分析优化;采集多模态数据进行聚合和归一化处理,对齐向量长度并投影到统一维度,将形成的融合特征向量对齐时间戳,根据相似度与标准语义标签和模板库进行检测;将多模态特征向量输入到指令分类器,根据预先定义指令模板输出指令,发送到对应设备执行,实时监听执行情况,上传偏差日志进行迭代优化。

【技术实现步骤摘要】

本专利技术属于人机交互,具体涉及一种基于多模态数据的人机交互方法


技术介绍

1、人机交互作为一种提升系统易用性、效率和用户体验的包含多种学科的技术,主要是研究用户与计算机之间的相互作用规律及优化方法的学科。

2、在中国公开号为cn119903319a,一种基于多模态数据的人机交互方法、装置以及存储介质。该配置方法包括:获取多模态数据以及交互文本;分别提取各模态数据的语义特征,得到各模态数据的第一语义特征;分别对第一语义特征中的隐私特征进行过滤,得到各模态数据的第二语义特征;基于各模态数据的第二语义特征,得到所述多模态数据应答所述交互信息的应答信息,从而对多模态数据和交互文本进行过滤操作,输出应答信息,减少用户隐私曝光概率,保护用户隐私安全。

3、在人机交互领域,虽然有解决单一数据输入源处理以及用户隐私问题的方法,但工业运维与巡检领域中,面对高噪声,高复杂度的操作环境,设备难以对现场工作人员的多模态数据进行收集处理,存在数据的失真和采样偏差,采集到的数据与实际数据存在偏差,导致人机交互的理解能力不足,进而影响运维工作的准确性;另一方本文档来自技高网...

【技术保护点】

1.一种基于多模态数据的人机交互方法,其特征在于:

2.根据权利要求1所述的一种基于多模态数据的人机交互方法,其特征在于:所述的强化多模态数据采集的具体步骤为:安装工业标准摄像头及麦克风,安装传感器与定位基站,部署声波采集节点;在工业以太网交换机上部署PTP模块,由工业以太网交换机作为主时钟,边缘设备作为从时钟,通过PTP协议将所有设备同步,主时钟周期性发送时间戳给从时钟,从时钟接收后发送延迟报文和自身时间戳给主时钟,主时钟接收并记录时间戳后再发送答复和时间戳,从时钟根据偏移和往返时延进行快慢矫正,以使各模态数据带有一致的时间戳;

3.根据权利要求2所述的一种基于...

【技术特征摘要】

1.一种基于多模态数据的人机交互方法,其特征在于:

2.根据权利要求1所述的一种基于多模态数据的人机交互方法,其特征在于:所述的强化多模态数据采集的具体步骤为:安装工业标准摄像头及麦克风,安装传感器与定位基站,部署声波采集节点;在工业以太网交换机上部署ptp模块,由工业以太网交换机作为主时钟,边缘设备作为从时钟,通过ptp协议将所有设备同步,主时钟周期性发送时间戳给从时钟,从时钟接收后发送延迟报文和自身时间戳给主时钟,主时钟接收并记录时间戳后再发送答复和时间戳,从时钟根据偏移和往返时延进行快慢矫正,以使各模态数据带有一致的时间戳;

3.根据权利要求2所述的一种基于多模态数据的人机交互方法,其特征在于:所述的自适应采样进行预处理的具体步骤还包括有:预先定义三个采样档次,分别为低带宽档、平衡档、高质量档,结合综合失真度d划分级别,当d≤0.3时,分配至低带宽档,当0.3<d≤0.6时,分配至平衡档,当d>0.6时,分配至高质量档,每800ms计算一次综合失真度d;对采集的多模态数据中的视频做时域去噪,保留工作区域的裁剪画面,对音频去除背景机械噪声,用语音活动截取检测讲话段落,丢弃静音帧,对imu用低通滤波去除高频抖动,对数据做姿态估计,去除静态数据。

4.根据权利要求1所述的一种基于多模态数据的人机交互方法,其特征在于:所述的建立标准化语义与模板库的具体步骤为:梳理工业运维与巡检工作的流程,拆解每道工序为动作、指令、检查的单元,收集动作、指令、检查单元,形成初步标准化语义的列表;对于动作单元,按时间顺序排列识别动作开始及结束点,提取动作特征向量,合并多条同一动作的数据进行特征聚类,计算动作的平均轨迹与容差边界,对于指令单元,定义标准化语义标签,为同一含义的指令设定统一规范化的表达,为标准化语义标签建立统一模板,对于检查单元,盘点工作内容各个流程的检查内容,设定验收标准,收集同一检查内容的不同描述,选取标签形成映射,归属检查内容,建立检查内容结构化条目;

5.根据权利要求1所述的一种基于多模态数据的人机交互方法,其特征在于:所述的实时多模态融合识别的具体步骤为:设置400ms的时间窗口,按时间戳排序,聚合不同模态的数据形成数据簇;对视频模态数据,用轻量级目标检测器,对采集到的视频数据定位区域,聚焦区域后进行裁剪,裁剪为300×200像素并线性映射,输入预训练的轻量级卷积神经网络,组成符合模型输入维度的张量,执行权重矩阵运算,对运算结果再应用非线性函数来引入非线性能力,对得到的多维度特征向量进行归一化处理,对于n维激活向量f=[f1,f2,f3...fn]t,...

【专利技术属性】
技术研发人员:刘志欣
申请(专利权)人:数海信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1