【技术实现步骤摘要】
【国外来华专利技术】用于数据分析的计算机实现的方法、计算机程序产品以及系统
本申请涉及数据分析,具体地,非结构化数据中的异常值检测的一种计算机实现的方法、一种计算机程序产品以及一种系统。
技术介绍
深度学习是依赖于一种类型的统计模型(被称为深度神经网络)的机器学习领域。深度神经网络可以是具有输入层、输出层以及在输出层与输出层之间的多个隐藏层的人工神经网络。由于深度神经网络学习到的强大转换,使用深度神经网络的深度学习在很多应用中已经变得非常普遍。然而,当在关键系统(诸如自动驾驶车辆或发电站控制系统)中采用深度学习时,理解何时不应信任由深度学习系统提供的预测可能是至关重要的。换句话说,可能重要的是,不仅知道由深度学习系统提供的预测是否准确,而且知道深度学习系统究竟是否应预测。可以通过理解所学习的表示的极限并且通过辨识何时遇到深度学习系统未辨识出的数据来改进自主决策。已经提出许多不同的方法以允许深度神经网络描述预测的不确定性。这些方法中有许多都是基于训练深度神经网络以在预测期间执行贝叶斯推断而不是点推断。这意味 ...
【技术保护点】
1.一种用于数据分析的计算机实现的方法,其包括:/n获得用于处理数据的深度神经网络(100)和用于训练所述深度神经网络的训练数据集的至少一部分,所述深度神经网络包括多个隐藏层,所述训练数据集包括能够输入到所述深度神经网络的可能观测值;/n获得从所述多个隐藏层中的至少一个输出的第一中间输出值集,通过输入所述训练数据集的所述至少一部分中包括的所述可能观测值中的不同一者来获得所述第一中间输出值集中的每一个;/n使用所述第一中间输出值集来构建潜变量模型,所述潜变量模型提供所述第一中间输出值集到子空间中的第一投影值集的映射,所述子空间具有低于所述中间输出集的维度的维度;/n接收要输入 ...
【技术特征摘要】
【国外来华专利技术】20180905 EP 18192649.4;20190618 EP 19180972.21.一种用于数据分析的计算机实现的方法,其包括:
获得用于处理数据的深度神经网络(100)和用于训练所述深度神经网络的训练数据集的至少一部分,所述深度神经网络包括多个隐藏层,所述训练数据集包括能够输入到所述深度神经网络的可能观测值;
获得从所述多个隐藏层中的至少一个输出的第一中间输出值集,通过输入所述训练数据集的所述至少一部分中包括的所述可能观测值中的不同一者来获得所述第一中间输出值集中的每一个;
使用所述第一中间输出值集来构建潜变量模型,所述潜变量模型提供所述第一中间输出值集到子空间中的第一投影值集的映射,所述子空间具有低于所述中间输出集的维度的维度;
接收要输入到所述深度神经网络的观测值;
获得通过将接收到的所述观测值输入到所述深度神经网络而从所述多个隐藏层中的所述至少一个输出的第二中间输出值集;
使用所述潜变量模型来将所述第二中间输出值集映射到第二投影值集;以及
基于所述潜变量模型和所述第二投影值集而相对于所述训练数据集来确定接收到的所述观测值是否为异常值。
2.根据权利要求1所述的方法,其中所述潜变量模型根据主成分分析来构建。
3.根据权利要求1或2所述的方法,其中确定接收到的所述观测值是否为异常值的步骤包括:
计算所述第二投影值集相对于所述第一投影值集的分布的马氏距离;以及
如果所计算的马氏距离大于所述马氏距离的阈值,则确定接收到的所述观测值相对于所述训练数据集是异常值。
4.根据权利要求3所述的方法,其中基于马氏距离来确定所述马氏距离的所述阈值,所述马氏距离中的每一个是相对于所述第一投影值集的所述分布而针对所述第一投影值集中的不同一者计算的。
5.根据权利要求1至4中任一项所述的方法,其中确定接收到的所述观测值是否为异常值的步骤包括:
使用所述潜变量模型和所述第二投影值集来确定与所述第二中间输出值集相对应的中间输出值的近似集;
计算所述第二中间输出值集和所述中间输出值的近似集的平方近似残差;以及
如果所计算的平方近似残差大于所述平方近似残差的阈值,则确定接收到的所述观测值相对于所述训练数据集是异常值。
6.根据权利要求5所述的方法,其中基于平方近似残差来确定所述平方近似残差的所述阈值,所述平方近似残差中的每一个是针对所述第一中间输出值集中的不同一者和与所述第一中间输出值集中的所述一者相对应的中间输出值的近似集计算的。
7.根据权利要求1至6中任一项所述的方法,其中针对所述多个隐藏层中的两个或更多个来执行获得所述第一中间输出值集和构建所述潜变量模型的步骤;
其中关于所述多个隐藏层中的所述两个或更多个来执行获得所述第二中间输出值集和将所述第二中间输出值集映射到所述第二投影值集的步骤;以及
其中基于所述潜变量模型以及关于所述多个隐藏层中的所述两个或更多个获得的所述第二投影值集来执行确定接收到的所述观测值是否为异常值的步骤。
8.一种计算机实现的方法,其包括:
获得用于处理数据的深度神经网络(100)和用于训练所述深度神经网络的训练数据集的至少一部分,所述深度神经网络包括多个隐藏层,所述训练数据集包括能够输入到所述深度神经网络的可能观测值;
获得从所述多个隐藏层中的至少一个输出的第一中间输出值集,通过输入所述训练数据集的所述至少一部分中包括的所述可能观测值中的不同一者来获得所述第一中间输出值集中的每一个;
使用所述第一中间输出值集来构建潜变量模型,所述潜变量模型提供所述第一中间输出值集到子空间中的第一投影值集的映射,所述子空间具有低于所述中间输出集的维度的维度;以及
将所述潜变量模型和所述第一投影值集存储在存储介质中。
9.一种计算机实现的方法,其...
【专利技术属性】
技术研发人员:里卡德·舍格伦,约翰·特利格,
申请(专利权)人:赛多利斯司特蒂姆数据分析公司,
类型:发明
国别省市:瑞典;SE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。