一种基于多模态数据的人机交互方法技术

技术编号：46627097 阅读：0 留言：0更新日期：2025-10-14 21:24

本发明专利技术涉及人机交互技术领域，提供了一种基于多模态数据的人机交互方法，通过部署用于工业运维与巡检的采集设备，定时检测工业环境的传输条件，划分对应级别进行采样处理；对工业运维与巡检工作的流程建立对应语义标签和模板，下发到设备中进行调用，同时对偏差项分析优化；采集多模态数据进行聚合和归一化处理，对齐向量长度并投影到统一维度，将形成的融合特征向量对齐时间戳，根据相似度与标准语义标签和模板库进行检测；将多模态特征向量输入到指令分类器，根据预先定义指令模板输出指令，发送到对应设备执行，实时监听执行情况，上传偏差日志进行迭代优化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人机交互，具体涉及一种基于多模态数据的人机交互方法。

技术介绍

1、人机交互作为一种提升系统易用性、效率和用户体验的包含多种学科的技术，主要是研究用户与计算机之间的相互作用规律及优化方法的学科。

2、在中国公开号为cn119903319a，一种基于多模态数据的人机交互方法、装置以及存储介质。该配置方法包括：获取多模态数据以及交互文本；分别提取各模态数据的语义特征，得到各模态数据的第一语义特征；分别对第一语义特征中的隐私特征进行过滤，得到各模态数据的第二语义特征；基于各模态数据的第二语义特征，得到所述多模态数据应答所述交互信息的应答信息，从而对多模态数据和交互文本进行过滤操作，输出应答信息，减少用户隐私曝光概率，保护用户隐私安全。

3、在人机交互领域，虽然有解决单一数据输入源处理以及用户隐私问题的方法，但工业运维与巡检领域中，面对高噪声，高复杂度的操作环境，设备难以对现场工作人员的多模态数据进行收集处理，存在数据的失真和采样偏差，采集到的数据与实际数据存在偏差，导致人机交互的理解能力不足，进而影响运维...

【技术保护点】

1.一种基于多模态数据的人机交互方法，其特征在于：

2.根据权利要求1所述的一种基于多模态数据的人机交互方法，其特征在于：所述的强化多模态数据采集的具体步骤为：安装工业标准摄像头及麦克风，安装传感器与定位基站，部署声波采集节点；在工业以太网交换机上部署PTP模块，由工业以太网交换机作为主时钟，边缘设备作为从时钟，通过PTP协议将所有设备同步，主时钟周期性发送时间戳给从时钟，从时钟接收后发送延迟报文和自身时间戳给主时钟，主时钟接收并记录时间戳后再发送答复和时间戳，从时钟根据偏移和往返时延进行快慢矫正，以使各模态数据带有一致的时间戳；

3.根据权利要求2所述的一种基于...

【技术特征摘要】

1.一种基于多模态数据的人机交互方法，其特征在于：

2.根据权利要求1所述的一种基于多模态数据的人机交互方法，其特征在于：所述的强化多模态数据采集的具体步骤为：安装工业标准摄像头及麦克风，安装传感器与定位基站，部署声波采集节点；在工业以太网交换机上部署ptp模块，由工业以太网交换机作为主时钟，边缘设备作为从时钟，通过ptp协议将所有设备同步，主时钟周期性发送时间戳给从时钟，从时钟接收后发送延迟报文和自身时间戳给主时钟，主时钟接收并记录时间戳后再发送答复和时间戳，从时钟根据偏移和往返时延进行快慢矫正，以使各模态数据带有一致的时间戳；

3.根据权利要求2所述的一种基于多模态数据的人机交互方法，其特征在于：所述的自适应采样进行预处理的具体步骤还包括有：预先定义三个采样档次，分别为低带宽档、平衡档、高质量档，结合综合失真度d划分级别，当d≤0.3时，分配至低带宽档，当0.3<d≤0.6时，分配至平衡档，当d>0.6时，分配至高质量档，每800ms计算一次综合失真度d；对采集的多模态数据中的视频做时域去噪，保留工作区域的裁剪画面，对音频去除背景机械噪声，用语音活动截取检测讲话段落，丢弃静音帧，对imu用低通滤波去除高频抖动，对数据做姿态估计，去除静态数据。

4.根据权利要求1所述的一种基于多模态数据的人机交互方法，其特征在于：所述的建立标准化语义与模板库的具体步骤为：梳理工业运维与巡检工作的流程，拆解每道工序为动作、指令、检查的单元，收集动作、指令、检查单元，形成初步标准化语义的列表；对于动作单元，按时间顺序排列识别动作开始及结束点，提取动作特征向量，合并多条同一动作的数据进行特征聚类，计算动作的平均轨迹与容差边界，对于指令单元，定义标准化语义标签，为同一含义的指令设定统一规范化的表达，为标准化语义标签建立统一模板，对于检查单元，盘点工作内容各个流程的检查内容，设定验收标准，收集同一检查内容的不同描述，选取标签形成映射，归属检查内容，建立检查内容结构化条目；

5.根据权利要求1所述的一种基于多模态数据的人机交互方法，其特征在于：所述的实时多模态融合识别的具体步骤为：设置400ms的时间窗口，按时间戳排序，聚合不同模态的数据形成数据簇；对视频模态数据，用轻量级目标检测器，对采集到的视频数据定位区域，聚焦区域后进行裁剪，裁剪为300×200像素并线性映射，输入预训练的轻量级卷积神经网络，组成符合模型输入维度的张量，执行权重矩阵运算，对运算结果再应用非线性函数来引入非线性能力，对得到的多维度特征向量进行归一化处理，对于n维激活向量f＝[f1,f2,f3...fn]t，...

【专利技术属性】
技术研发人员：刘志欣，
申请(专利权)人：数海信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人