基于神经与符号的多模态大数据机器自动学习系统技术方案

技术编号:30094683 阅读:39 留言:0更新日期:2021-09-18 08:57
本发明专利技术属于人工智能、机器学习与认知计算领域,具体涉及一种基于神经与符号的多模态大数据机器自动学习系统,旨在解决现有的机器学习方法难以从动态演化数据中获取高保真机理模型的问题。本发明专利技术系统:特征工程自动构建模块包括数据获取单元、事理超图网络自动构建单元、网络结构自动更新单元;机理模型自动构建模块包括领域任务定义单元、模型博弈设计搜索单元,搜索网格加速优化单元;超参数寻优优化模块包括超参数初始空间构建单元、超参数自适应选择策略单元、自适应寻优推理单元和超参数自动迁移单元、模型数据处理模块。本发明专利技术通过大数据机器自动学习方法,迭代保真度评价,获得高保真机理模型,提高了复杂系统行为认知预测的精度。测的精度。测的精度。

【技术实现步骤摘要】
基于神经与符号的多模态大数据机器自动学习系统


[0001]本专利技术属于人工智能、机器学习与认知计算领域,具体涉及一种基于神经与符号的多模态大数据机器自动学习系统。

技术介绍

[0002]大数据已经成为全球工业生产、流通、分配、消费活动以及经济运行等领域资源配置和优化的核心要素。探索认知大数据的方法为人工智能领域重要研究方向,归根结底大数据记录了现实世界复杂系统独立运行机理,以及复杂系统与环境之间的依赖、竞争、关联等运动轨迹。这些知识对科学及时准确掌握国民经济发展、优化产业结构、推进社会科学治理等,具有十分重要研究价值。然而传统机器学习方法需要依靠大量专业数据分析科学家收集数据。
[0003]然而数据分析科学家收集的数据原生于复杂系统,衍生出非线性、涌现、自发秩序、适应性以及反馈回路等特性,使得现有人工智能还原论(如统计机器学习、贝叶斯网络、神经网络等)难以有效解释大数据隐含系统普适性规律。因此,从大数据中获得系统运行普适性规律成为人工智能认知学研究重要方向,具体来说:既从感知观测角度学习到复杂系统运行多模态数据分布规律,又需要从系统运行机理认知角度,从新增数据流中推演出系统运行潜在风险或者发展趋势,即:大数据认知建模分析,成为人工智能3.0领域发展前沿主题之一。
[0004]现有大数据驱动系统建模分析主要聚焦在三个方面:1. 基于无监督生成学习的大数据建模分析,该方法聚焦从复杂系统中及时获取系统数据特征属性,通过学习系统运行数据之间时间空间关联,形象刻画出特定时间区域的系统运行机理;2. 基于时空结构度量的数据空间吸引规则认知,采用时空结构度量在特定场景属性运动基本规律,进行宏观和微观相结合超几何描述和行为趋势预测,这些简洁、富有洞察力,借助常识等先验知识,揭示系统机理动力演化基本规律;3.基于自动机器学习型的模型自动构建方法,通过不断对系统产生数据流进行采样,从高质量训练样本空间,通过多次迭代搜索出适应特定业务场景模型,从而实现系统自动建模。然而上述三类方法仍然基于系统还原论,借助机器学习工具从大数据中还原系统机理,这种思路既无法把整个系统运行机理简单理解为个体的加总,也无法从整体的行为有效推断出系统运行机理模型确定性质,同时增加模型训练计算复杂度。基于此,本专利技术提出了一种基于神经与符号的多模态大数据机器自动学习系统。

技术实现思路

[0005]为了解决现有技术中的上述问题,即为了解决现有的机器学习方法无法自动碎片化动态演化数据中获取高保真机理模型的问题,本专利技术第一方面,提出了一种基于神经与符号的多模态大数据机器自动学习系统,该系统包括:特征工程自动构建模块、机理模型自动构建模块、超参数寻优优化模块、模型数据处理模块;所述特征工程自动构建模块包括数据获取单元、事理超图网络自动构建单元、网
络结构自动更新单元;所述数据获取单元,配置为获取碎片化、多模态、动态演化的大数据,作为输入数据;所述输入数据包括多个领域不同模态的文本、图像、音频、视频数据;所述事理超图网络自动构建单元,配置为通过自编码神经网络提取所述输入数据中所包含不同领域的事理的概念符号,构建事理概念符号空间;基于所述事理概念符号空间,通过多模态特征自动共形表示方法,自动聚合出不同模态的超边并进行共形计算,生成事理超图网络;所述网络结构自动更新单元,配置为从新的输入数据中提取事理的概念符号,获取新增的超图顶点;通过超边多模态动态演化计算,对新增的超图顶点与所述事理超图网络所覆盖的节点进行增减对齐卷积计算,进而实现事理超图网络的自动更新;所述机理模型自动构建模块包括领域任务定义单元、模型博弈设计搜索单元,搜索网格加速优化单元;所述领域任务定义单元,配置为针对设定领域的输入数据集,结合神经+符号特征工程的先验,划分出该领域的事理的概念符号及超参数分布情况,并预先构建模型结构及超参数搜索空间;所述超参数包括:学习率、神经元网络层数、网络结构、卷积核选择、迭代次数、隐含层层数、神经元规模、滑动窗口和流行共性指数、激活函数、聚类个数和话题个数;所述模型博弈设计搜索单元,配置为在预先构建的模型结构及超参数搜索空间中,通过博弈树搜索策略,从事理超图网络的节点中蒸馏出一系列模型结构候选模型,包括神经网络预测算法和一组超参数,并对一系列候选模型结构及超参数集进行迭代高保真评估,自动搜索出最适合当前输入数据集的最佳机理模型;所述机理模型包括描述、预测、预警的神经网络模型;所述搜索网格加速优化单元,配置为通过基于强化学习的神经网络结构预测技术,获得模型结构对应的学习曲线;根据学习曲线预测出的模型结构分布和超参数过程权值,拟合出从训练样本集训练出模型和从测试样本集自动生成模型误差最小方差均值权值,并在各模型结构中全局共享该权值;所述训练样本集为基于事理超图网络中事理的概念符号构建样本集;所述测试样本集为所述设定领域的输入数据集;所述超参数寻优优化模块包括超参数空间构建单元、超参数自适应选择策略单元、自适应寻优推理单元和超参数自动迁移单元;所述超参数空间构建单元,配置为基于现有自动机器学习算法的超参数数据,将所述现有自动机器学习算法的超参数数据划分为不同自动机器学习算法超参数种群,进而构建超参数空间;所述超参数自适应选择策略单元,配置为以更新后的事理超图网络中所包含的各领域的事理的概念符号为学习目标任务,结合各领域的先验知识、预定义的超参数自适应选择策略函数,从所述超参数空间筛选出满足所述学习目标任务的多类型候选超参数集合;所述自适应寻优推理单元,配置为基于所述候选超参数集合,通过自适应寻优推理算法,根据学习目标任务,采用并行和序列相结合的方法迭代探索候选算法最优结构及学习速率、正则化和网络结构深度的超参数组合,每次探索一次超参数组合生成超参数最
优曲线,自动比对多次生成的超参数最优曲线的变异,增加干扰信息直至变异超过阈值,终止自适应寻优,获得最优超参数组合;所述自动迁移单元,配置为将新增学习目标任务与已有的学习目标任务进行同类匹配,将类型相似度高于预设阈值的已有的学习目标任务对应的超参数组合迁移到新增学习目标任务的超参数空间,为新增学习目标任务配置最优超参数;所述模型数据处理模块,配置为结合机理模型自动构建模块筛选的最佳机理模型、超参数寻优优化模块获取的最优超参数组合,对各设定领域的输入数据进行处理;所述处理包括描述、预警、预测。
[0006]在一些优选的实施方式中,“基于所述事理概念符号空间,通过多模态特征自动共形表示方法,自动聚合出不同模态的超边并进行共形计算,生成事理超图网络”,其方法为:A10,对所述事理概念符号空间,采用多模态特征选择计算求解,提取所述输入数据中事理的概念符号的有限节点集合;A20,以事理的概念符号的有限节点集合作为超图的顶点集合,通过超图表示学习计算求解,生成超边集合,并为每个超边赋予权重和时间戳,生成多个模态超图的拉普拉斯矩阵,即得到多个模态的超边结构群;A30,对多个模态超图的拉普拉斯矩阵,进行不同模态的超图间高阶相关共形熵求解计算,生成事理超图网络。
[0007]在一些优选的实施方式中,“采用多模态特征选择计算求解,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经与符号的多模态大数据机器自动学习系统,其特征在于,该系统包括:特征工程自动构建模块、机理模型自动构建模块、超参数寻优优化模块、模型数据处理模块;所述特征工程自动构建模块包括数据获取单元、事理超图网络自动构建单元、网络结构自动更新单元;所述数据获取单元,配置为获取碎片化、多模态、动态演化的大数据,作为输入数据;所述输入数据包括多个领域不同模态的文本、图像、音频、视频数据;所述事理超图网络自动构建单元,配置为通过自编码神经网络提取所述输入数据中所包含不同领域的事理的概念符号,构建事理概念符号空间;基于所述事理概念符号空间,通过多模态特征自动共形表示方法,自动聚合出不同模态的超边并进行共形计算,生成事理超图网络;所述网络结构自动更新单元,配置为从新的输入数据中提取事理的概念符号,获取新增的超图顶点;通过超边多模态动态演化计算,对新增的超图顶点与所述事理超图网络所覆盖的节点进行增减对齐卷积计算,进而实现事理超图网络的自动更新;所述机理模型自动构建模块包括领域任务定义单元、模型博弈设计搜索单元,搜索网格加速优化单元;所述领域任务定义单元,配置为针对设定领域的输入数据集,结合神经+符号特征工程的先验,划分出该领域的事理的概念符号及超参数分布情况,并预先构建模型结构及超参数搜索空间;所述超参数包括:学习率、神经元网络层数、网络结构、卷积核选择、迭代次数、隐含层层数、神经元规模、滑动窗口和流行共性指数、激活函数、聚类个数和话题个数;所述模型博弈设计搜索单元,配置为在预先构建的模型结构及超参数搜索空间中,通过博弈树搜索策略,从事理超图网络的节点中蒸馏出一系列模型结构候选模型,包括神经网络预测算法和一组超参数,并对一系列候选模型结构及超参数集进行迭代高保真评估,自动搜索出最适合当前输入数据集的最佳机理模型;所述机理模型包括描述、预测、预警的神经网络模型;所述搜索网格加速优化单元,配置为通过基于强化学习的神经网络结构预测技术,获得模型结构对应的学习曲线,根据学习曲线预测出的模型结构分布和超参数过程权值,拟合出从训练样本集训练出模型和从测试样本集自动生成模型误差最小方差均值权值,并在各模型结构中全局共享该权值;所述训练样本集为基于事理超图网络中事理的概念符号构建样本集;所述测试样本集为所述设定领域的输入数据集;所述超参数寻优优化模块包括超参数空间构建单元、超参数自适应选择策略单元、自适应寻优推理单元和超参数自动迁移单元;所述超参数空间构建单元,配置为基于现有自动机器学习算法的超参数数据,将所述现有自动机器学习算法的超参数数据划分为不同自动机器学习算法超参数种群,进而构建超参数空间;所述超参数自适应选择策略单元,配置为以更新后的事理超图网络中所包含的各领域的事理的概念符号为学习目标任务,结合各领域的先验知识、预定义的超参数自适应选择策略函数,从所述超参数空间筛选出满足所述学习目标任务的多类型候选超参数集合;所述自适应寻优推理单元,配置为基于所述候选超参数集合,通过自适应寻优推理算
法,根据学习目标任务,采用并行和序列相结合的方法迭代探索候选算法最优结构及学习速率、正则化和网络结构深度的超参数组合,每次探索一次超参数组合生成超参数最优曲线,自动比对多次生成的超参数最优曲线的变异,增加干扰信息直至变异超过阈值,终止自适应寻优,获得最优超参数组合;所述自动迁移单元,配置为将新增学习目标任务与已有的学习目标任务进行同类匹配,将类型相似度高于预设阈值的已有的学习目标任务对应的超参数组合迁移到新增学习目标任务的超参数空间,为新增学习目标任务配置最优超参数;所述模型数据处理模块,配置为结合机理模型自动构建模块筛选的最佳机理模型、超参数寻优优化模块获取的最优超参数组合,对各设定领域的输入数据集进行处理;所述处理包括描述、预警、预测。2.根据权利要求1所述的基于神经与符号的多模态大数据机器自动学习系统,其特征在于,“基于所述事理概念符号空间,通过多模态特征自动共形表示方法,自动聚合出不同模态的超边并进行共形计算,生成事理超图网络”,其方法为:A10,对所述事理概念符号空间,采用多模态特征选择计算求解,提取所述输入数据中事理的概念符号的有限节点集合;A20,以事理的概念符号的有限节点集合作为超图的顶点集合,通过超图表示学习计算求解,生成超边集合,并为每个超边赋予权重和时间戳,生成多个模态超图的拉普拉斯矩阵,即得到多个模态的超边结构群;A3...

【专利技术属性】
技术研发人员:王军平苑瑞文林建鑫唐永强
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1