一种基于端到端可学的输入过滤的推理方法技术

技术编号:37415306 阅读:10 留言:0更新日期:2023-04-30 09:39
本发明专利技术公开了一种基于端到端可学的输入过滤的推理方法,包括基于多模态输入建立特征提取网络,并构建任务模型;将多模态多任务的不同数据模式输入相应的特征提取网络,得到相应的向量表示并进行拼接;将得到拼接后的向量表示输入训练好的任务模型进行分类推理,并输出多任务的推理结果。本发明专利技术通过设计鲁棒的多模态特征提取网络,以及统一了跳过过滤与重用过滤的方法并支持多种输入模式和部署。在大型推理系统中,可以支持六种输入模式和多种以移动为中心的部署,实现高适用性、高准确率和高效率。效率。效率。

【技术实现步骤摘要】
一种基于端到端可学的输入过滤的推理方法


[0001]本专利技术涉及机器学习模型
,特别涉及一种基于端到端可学的输入过滤的推理方法。

技术介绍

[0002]对实时传感器数据分析日益增长的需求增加了移动设备的计算能力,并创造了以移动为中心的人工智能(AI)的趋势。模型推理的资源效率对于人工智能应用至关重要,特别是对于资源有限的移动设备和延迟敏感的任务。然而,许多具有先进精确度的AI模型的计算量太大,即使它们被部署到边缘或云服务器无法执行高通量推理。输入滤波是一种很有前途的消除冗余从而降低推理成本的方法。
[0003]对于资源高效推断,一种直接和流行的方法是通过加速和压缩技术消除深度模型本身的冗余,另一种是试图过滤输入数据中的冗余(输入过滤)。我们遵循过滤输入数据冗余的方案。现有输入过滤主要分为跳过(SKIP)和重用(REUSE)两种。跳过方法目的是过滤将带来无用推断结果的输入数据,例如,对于人脸检测器来说没有人脸的图像和对于语音识别器来说没有有效命令的音频。(2)重用方法尝试过滤输入,其结果可以重用之前的推断结果,例如相同动作的运动信号和相同车辆数量的视频帧。尽管之前的工作已经为一系列应用设计了有效的输入过滤器,但两个重要和具有挑战性的问题仍然没有得到回答:
[0004]1.缺少指导输入滤波应用于移动中心推理的理论可过滤分析。并非所有推理工作负载都具有使用输入过滤的优化潜力。对输入滤波来说,描述在何种条件下滤波器必须花费更多的代价才能达到精确是至关重要的。
[0005]2.在以移动为中心的推断中,针对不同任务和模式的健壮的特征可鉴别性:鉴别特征表示对于过滤性能至关重要,因为它直接决定了做出SKIP决策和找到可重用结果的准确性。

技术实现思路

[0006]本专利技术的目的克服现有技术存在的不足,为实现以上目的,采用一种基于端到端可学的输入过滤的推理方法,以解决上述
技术介绍
中提出的问题。
[0007]一种基于端到端可学的输入过滤的推理方法,具体步骤包括:
[0008]步骤S1、基于多模态输入建立特征提取网络,并构建任务模型;
[0009]步骤S2、将多模态多任务的不同数据模式输入相应的特征提取网络,得到相应的向量表示并进行拼接;
[0010]步骤S3、将得到拼接后的向量表示输入训练好的任务模型进行分类推理,并输出多任务的推理结果。
[0011]作为本专利技术的进一步的方案:所述步骤S1的具体步骤包括:
[0012]基于多模态输入构建特征提取网络;以及
[0013]设计开发多模态的特征提取网络的集合,并作为学习特征嵌入的构建块;
[0014]所述多模态包括文本模态、图像模态、视频模态、映射模态,以及输入模态。
[0015]作为本专利技术的进一步的方案:所述步骤S2的具体步骤包括:
[0016]根据多模态输入的每一种输入模态,构建相应的特征提取网络,并将得到的相应的向量表示进行嵌入拼接;以及
[0017]根据多任务中的每个任务构建一个多维分类器,用于进行嵌入拼接;
[0018]令emb1,emb2表示两个输入的嵌入输出,则所述多维分类器定义为:
[0019][0020]其中,emb
j
表示嵌入向量中的第j个元素,σ为Sigmoid函数。
[0021]作为本专利技术的进一步的方案:所述步骤S3的具体步骤包括:
[0022]在训练阶段的任务模型进行跳过过滤器和重用过滤器统一;
[0023]在推理阶段,对到达的输入,经过训练的特征嵌入网络返回其嵌入,通过距离计算后进行分类得到推理结果。
[0024]与现有技术相比,本专利技术存在以下技术效果:
[0025]采用上述的技术方案,通过设计鲁棒的多模态特征提取,以及统一了跳过过滤与重用过滤的方法并支持多种输入模式和部署。在大型推理系统中,可以支持六种输入模式和多种以移动为中心的部署,实现高适用性、高准确率和高效率。作为移动平台上的视频分析应用程序,与现有技术相比,本专利技术可以实现8.5倍的吞吐量,节省95%的带宽,同时保持90%以上的准确性,提升系统吞吐量并节省大量带宽。
附图说明
[0026]下面结合附图,对本专利技术的具体实施方式进行详细描述:
[0027]图1为本申请公开实施例的结构示意图;
[0028]图2为本申请公开实施例的方法流程示意图;
[0029]图3为本申请公开实施例的多模态多任务处理过程示意图;
[0030]图4为本申请公开实施例的端到端可学输入过滤框架示意图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]请参考图1和图2,本专利技术实施例中,一种基于端到端可学的输入过滤的推理方法,具体步骤包括:
[0033]步骤S1、基于多模态输入建立特征提取网络,并构建任务模型,具体步骤包括:
[0034]基于多模态输入构建特征提取网络;以及
[0035]设计开发多模态的特征提取网络的集合,并作为学习特征嵌入的构建块;
[0036]所述多模态包括文本模态、图像模态、视频模态、映射模态,以及输入模态。
[0037]本实施例中,开发了一个多模态特征网络集合,作为学习特征嵌入的构建块。我们
在设计这些特征网络时主要考虑的是移动设备上的资源效率。
[0038]文本模态:文本被标记为一个整数序列,其中每个整数引用一个标记的索引。我们采用词嵌入层通过变换矩阵将序列映射到定长向量,并使用具有Sigmoid激活的密连接层来学习文本特征。
[0039]图像模态:使用深度可分卷积来学习视觉特征。
[0040]视频模态:我们不仅需要表现其空间特征,还需要表现其时间特征。给定一个窗口的帧,我们为每一帧堆叠一个剩余块,然后连接他们的结果特征映射。
[0041]音频模态:考虑以一维波形或二维谱图形式的音频输入,并使用与图像特征网络相同的结构从音频中学习特征。
[0042]对于传感器信号和特征映射模态:我们将这两种类型的输入视为一个形状固定的向量,并使用两个紧密连接的层来学习从扁平向量中进行特征嵌入。
[0043]灵活支持输入模态:我们的设计为以移动为中心的AI应用程序的各种输入模式提供了灵活的支持。我们可以很容易地将先进机器学习研究中的模态特定神经网络作为特征网络块集成到我们的框架中,从而以端到端方式学习特征嵌入。
[0044]本实施例中,通过提供输入过滤问题和有效过滤器条件的通用形式化,从理论上定义了可过滤性,通过比较推理模型的假设复杂度及其输入过滤器,分析了分类和回归两种最常见的推理工作负载的可过滤性。
[0045]步骤S2、将多模态多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于端到端可学的输入过滤的推理方法,其特征在于,具体步骤包括:步骤S1、基于多模态输入建立特征提取网络,并构建任务模型;步骤S2、将多模态多任务的不同数据模式输入相应的特征提取网络,得到相应的向量表示并进行拼接;步骤S3、将得到拼接后的向量表示输入训练好的任务模型进行分类推理,并输出多任务的推理结果。2.根据权利要求1所述一种基于端到端可学的输入过滤的推理方法,其特征在于,所述步骤S1的具体步骤包括:基于多模态输入构建特征提取网络;以及设计开发多模态的特征提取网络的集合,并作为学习特征嵌入的构建块;所述多模态包括文本模态、图像模态、视频模态、映射模态,以及输入模态。3.根据权利要求1所述一种基于端到端可学的输入过滤的...

【专利技术属性】
技术研发人员:张兰袁牧
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1