工业互联网多模态机器学习数据处理方法技术

技术编号:33911191 阅读:43 留言:0更新日期:2022-06-25 19:29
本发明专利技术公开了工业互联网多模态机器学习数据处理方法,涉及工业互联网技术领域。该工业互联网多模态机器学习数据处理方法,包括如下具体方法:步骤一.计算所有多模态数据集合之间两两的相关性,首先需要清理数据,使得数据在时间上对齐,判断两个数据集合是否相关:否:判断所有数据是否处理完毕;是:挑选合适的数据集合作为建模数据,并判断所有数据是否处理完毕;步骤二.所有数据未处理完毕,则通过步骤一重新开始,若所有数据处理完毕,则建立合适的多模态机器学习模型。本发明专利技术有利于针对不同场景选择不同的多个数据源,有效节省系统成本,同时减小机器学习模型,便于边缘计算的实施。施。施。

【技术实现步骤摘要】
工业互联网多模态机器学习数据处理方法


[0001]本专利技术涉及工业互联网
,特别是涉及工业互联网多模态机器学习数据处理方法。

技术介绍

[0002]现有技术中,工业互联网场景下引入大量终端后,收集的数据会来自于不同数据源,例如要建立电网中变电站运作是否正常的机器模型,会收集不同时间的温度,湿度,变压器油分离后特定气体的含量,可见光数据(视频,图像),红外热力图类别数据(通过热成像传感仪拍摄的数据),声音,气味等,在数据源众多时,利用多个数据源建立多模态机器学习模型是一个已有的方法来利用相关数据集合。但是,如何衡量每个数据源在模型中的价值在现有技术中没有过多的研究,不利于针对不同场景选择不同的多个数据源,造成系统成本高。

技术实现思路

[0003]本专利技术所要解决的技术问题是如何衡量每个数据源在模型中的价值在现有技术中没有过多的研究。
[0004]为解决上述技术问题,本专利技术采用的一个技术方案是:提供工业互联网多模态机器学习数据处理方法,包括如下具体方法:
[0005]步骤一.计算所有多模态数据集合之间两两的相关性,首先需要清理数据,使得数据在时间上对齐,判断两个数据集合是否相关:
[0006]否:判断所有数据是否处理完毕;
[0007]是:挑选合适的数据集合作为建模数据,并判断所有数据是否处理完毕;
[0008]步骤二.所有数据未处理完毕,则通过步骤一重新开始,若所有数据处理完毕,则建立合适的多模态机器学习模型。
[0009]优选的,所述步骤一中需要清理数据,使得数据在时间上对齐的方法如下:针对所有数据在时间上对齐,设定同一段时间内固定的时间间隔,在每个时间点上取所有的数据作为清理输出,如果该时间点上某个数据源没有数据,需要通过前后数据计算获得采样。
[0010]优选的,获得采样的具体方法如下:设横轴是时间轴,X是需要计算的采样时间点,前后数据是(x0,y0),(x1,y1),采样点y值计算公式为:
[0011]优选的,所述相关性的计算方法如下:相关性有两种表达方法,一种是协方差,一种是相关系数,相关系数可以看成是标准化后的协方差,设:X
t
为第一组经过清理的数据,Y
t
为第二组经过清理的数据,μ
x
为X
t
的均值,μ
y
为Y
t
的均值,σ
x
为X
t
的标准差,σ
y
为Y
t
的标准差,E[
·
]为计算期望,所述X
t
和Y
t
的协方差为Cov(X
t
,Y
t
),Cov(X
t
,Y
t
)=E[(X
t

μ
x
)(Y
t

μ
y
)
T
],所述X
t
和Y
t
的相关系数为Cor(X
t
,Y
t
),
[0012][0013]优选的,两个数据集合相关的门限的确定方法为:相关系数的取值在

1到1之间,只要相关系数的绝对值大于门限,就意味着两个数据中挑选一个参与训练多模态模型即可。
[0014]优选的,步骤一中挑选合适的数据集合作为建模数据的方法为:利用测试数据分别测试两个数据集合参与训练的机器模型对于检测结果的贡献,挑选性能好的数据集合,这个机器模型可以是用两个数据集合单独训练而成,也可以是两个数据集合独立加上其他同样的数据训练而成,所述机器学习的模型包括但是不限于决策树,随机森林,线性回归,朴素贝叶斯,神经网络(包括深度学习的神经网络),逻辑回归,支持向量机。
[0015]本专利技术的有益效果如下:
[0016]本专利技术通过建立合适的多模态机器学习模型,有利于针对不同场景选择不同的多个数据源,有效节省系统成本,同时减小机器学习模型,便于边缘计算的实施。
附图说明
[0017]图1为本专利技术工业互联网多模态机器学习数据处理方法的流程图。
具体实施方式
[0018]下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0019]请参阅图1,工业互联网多模态机器学习数据处理方法,包括如下具体方法:
[0020]步骤一.计算所有多模态数据集合之间两两的相关性,首先需要清理数据,且清理数据,使得数据在时间上对齐的方法如下:针对所有数据在时间上对齐,设定同一段时间内固定的时间间隔,在每个时间点上取所有的数据作为清理输出,如果该时间点上某个数据源没有数据,需要通过前后数据计算获得采样,获得采样的具体方法如下:设横轴是时间轴,X是需要计算的采样时间点,前后数据是(x0,y0),(x1,y1),采样点y值计算公式为:
[0021][0022],使得数据在时间上对齐,判断两个数据集合是否相关:
[0023]否:判断所有数据是否处理完毕;
[0024]是:挑选合适的数据集合作为建模数据,并判断所有数据是否处理完毕;
[0025]步骤二.所有数据未处理完毕,则通过步骤一重新开始,若所有数据处理完毕,则建立合适的多模态机器学习模型;
[0026]相关性的计算方法如下:相关性有两种表达方法,一种是协方差,一种是相关系数,相关系数可以看成是标准化后的协方差,设:X
t
为第一组经过清理的数据,Y
t
为第二组经过清理的数据,μ
x
为X
t
的均值,μ
y
为Y
t
的均值,σ
x
为X
t
的标准差,σ
y
为Y
t
的标准差,E[
·
]为计算期望,X
t
和Y
t
的协方差为Cov(X
t
,Y
t
),Cov(X
t
,Y
t
)=E[(X
t

μ
x
)(Y
t

μ
y
)
T
],X
t
和Y
t
的相关系数为Cor(X
t
,Y
t
),
[0027][0028]步骤一中挑选合适的数据集合作为建模数据的方法为:利用测试数据分别测试两个数据集合参与训练的机器模型对于检测结果的贡献,挑选性能好的数据集合,这个机器模型可以是用两个数据集合单独训练而成,也可以是两个数据集合独立加上其他同样的数据训练而成,机器学习的模型包括但是不限于决策树,随机森林,线性回归,朴素贝叶本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.工业互联网多模态机器学习数据处理方法,其特征在于,包括如下具体方法:步骤一.计算所有多模态数据集合之间两两的相关性,首先需要清理数据,使得数据在时间上对齐,判断两个数据集合是否相关:否:判断所有数据是否处理完毕;是:挑选合适的数据集合作为建模数据,并判断所有数据是否处理完毕;步骤二.所有数据未处理完毕,则通过步骤一重新开始,若所有数据处理完毕,则建立合适的多模态机器学习模型。2.根据权利要求1所述的工业互联网多模态机器学习数据处理方法,其特征在于,所述步骤一中需要清理数据,使得数据在时间上对齐的方法如下:针对所有数据在时间上对齐,设定同一段时间内固定的时间间隔,在每个时间点上取所有的数据作为清理输出,如果该时间点上某个数据源没有数据,需要通过前后数据计算获得采样。3.根据权利要求2所述的工业互联网多模态机器学习数据处理方法,其特征在于,获得采样的具体方法如下:设横轴是时间轴,X是需要计算的采样时间点,前后数据是(x0,y0),(x1,y1),采样点y值计算公式为:4.根据权利要求1所述的工业互联网多模态机器学习数据处理方法,其特征在于,所述相关性的计算方法如下:相关性有两种表达方法,一种是协方差,一种是相关系数,相关系数可以看成是标准化后的协方差,设:X
t
为第一组经过清理的数据,Y
t
为第二组经过清理的数据,μ
x
为X
t
的均值,μ
y
为Y
t
的均值,σ
x
为X
t
的标准差,σ
y
为Y
t
的标准差,E[
·
]为计算期望,所述X
t
和Y
t
的协方差为Cov...

【专利技术属性】
技术研发人员:吴斌王雪峰刘青
申请(专利权)人:南京英锐祺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1