基于多模态特征融合来执行硬件故障检测制造技术

技术编号:38762218 阅读:23 留言:0更新日期:2023-09-10 10:35
本公开提出了用于基于多模态特征融合来执行硬件故障检测的方法、装置和计算机程序产品。可以获得机器的硬件事件日志集合,所述机器包括多个硬件组件。可以获得所述机器的性能信号集合,所述性能信号集合是时序数据。可以基于所述硬件事件日志集合和所述性能信号集合,检测所述机器中的至少一个故障硬件组件。检测所述机器中的至少一个故障硬件组件。检测所述机器中的至少一个故障硬件组件。

【技术实现步骤摘要】
【国外来华专利技术】基于多模态特征融合来执行硬件故障检测

技术介绍

[0001]随着诸如云存储和云计算之类的技术的发展,越来越多的企业和机构利用云服务进行日常运营和管理。云服务可以指通过互联网按需提供的各种服务。云服务由云服务提供商管理,并且从提供商的机器,例如云服务器,提供给客户,因此客户无需在自己的本地服务器上托管应用或资源。为了提供可靠的云服务,云服务提供商通常对机器执行硬件故障检测,以便及时发现机器中的故障硬件组件,并且采取适当的修复措施。

技术实现思路

[0002]提供本
技术实现思路
以便介绍一组构思,这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护的主题的关键特征或必要特征,也不旨在用于限制所保护的主题的范围。
[0003]本公开的实施例提出了用于基于多模态特征融合来执行硬件故障检测的方法、装置和计算机程序产品。可以获得机器的硬件事件日志集合,所述机器包括多个硬件组件。可以获得所述机器的性能信号集合,所述性能信号集合是时序数据。可以基于所述硬件事件日志集合和所述性能信号集合,检测所述机器中的至少一个故障硬件组件。
[0004]应当注意,以上一个或多个方面包括在下文中详细描述并且在权利要求中具体指出的特征。以下说明书及附图详细阐述了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以采用各个方面的原理的各种方式,并且本公开旨在包括所有这些方面及其等同变换。
附图说明
[0005]以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
[0006]图1示出了根据本公开实施例的用于基于多模态特征融合来执行硬件故障检测的示例性过程。
[0007]图2示出了根据本公开实施例的用于生成日志嵌入向量(embedding)的示例性过程。
[0008]图3示出了根据本公开实施例的用于生成性能信号嵌入向量的示例性过程。
[0009]图4示出了根据本公开实施例的用于生成观察特征向量的示例性过程。
[0010]图5示出了根据本公开实施例的用于获得用于硬件故障检测模型的训练数据集的示例性过程。
[0011]图6示出了根据本公开实施例的用于收集历史性能信号集合的示例性过程。
[0012]图7是根据本公开实施例的用于基于多模态特征融合来执行硬件故障检测的示例性方法的流程图。
[0013]图8示出了根据本公开实施例的用于基于多模态特征融合来执行硬件故障检测的示例性装置。
[0014]图9示出了根据本公开实施例的用于基于多模态特征融合来执行硬件故障检测的示例性装置。
具体实施方式
[0015]现在将参考若干示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
[0016]目前,硬件故障检测可以通过基于规则的方法进行。基于规则的方法可以基于一些预定规则来检测机器中的故障硬件组件。预定规则通常由人们根据过去的经验设定,并且可能仅依赖于与严重故障相关的强信号。所以,它们可能不够充分和准确。因此,采用基于规则的方法进行的硬件故障检测可能无法涵盖所有硬件问题,仍有一些硬件问题需要手动处理。以更高效的方式来执行硬件故障检测是期望的。
[0017]本公开的实施例提出了基于机器学习的硬件故障检测。可以通过机器学习模型来执行所提出的硬件故障检测。在本文中,用于执行硬件故障检测的机器学习模型可以被称为硬件故障检测模型。硬件故障检测模型可以基于多模态特征融合,检测机器中的至少一个故障硬件组件。在本文中,机器可以指具有计算或信息处理能力的各种类型的电子设备,例如服务器、计算机、手机等等。例如,硬件故障检测模型可以基于机器的硬件事件日志和机器的性能信号二者,检测机器中的故障硬件组件。硬件事件日志可以包括与机器的各种硬件事件相关的多行日志。性能信号可以包括与机器的性能相关的时间序列数据。硬件故障检测模型可以基于硬件事件日志来生成日志嵌入向量,基于性能信号来生成性能信号嵌入向量,并且基于日志嵌入向量和性能信号嵌入向量来检测故障硬件组件。
[0018]由于所提出的硬件故障检测考虑了硬件事件日志和性能信号二者,因此可以提供更稳健的硬件故障检测结果。另外,考虑硬件事件日志和性能信号二者可以有助于从多个硬件组件之间的性能交互中隐式推断硬件故障的根本原因。此外,检测到的故障硬件组件的数量和相应的故障机器的数量将非常少。在这种情况下,即使机器的数量大大增加,所提出的硬件故障检测也可以很好地处理,因此所提出的硬件故障检测是一种可扩展的解决方案。
[0019]在一方面,本公开的实施例提出了通过模式级别嵌入向量方法来生成日志嵌入向量。例如,可以基于正则表达式和/或最长公共子序列检测,从预定模式集合中识别硬件事件日志集合中的每个硬件事件日志的模式。可以基于识别出的模式,生成日志嵌入向量。通过模式级别嵌入向量方法,可以将硬件事件日志集合表达为高质量的嵌入向量,这有助于提高硬件故障检测模型的泛化能力和预测准确度。
[0020]在另一方面,本公开的实施例提出了通过将性能信号集合从时域变换到频域来生成性能信号嵌入向量,并且从性能信号集合的频谱中提取特征向量。不同的硬件组件故障可能产生具有不同频率的中断信号,因此对于不同类型的硬件组件故障,性能信号的频谱可能是不同的。通过对频谱的处理,可以将性能信号用精确的、有代表性的特征向量来表示,这有助于提高硬件故障检测模型的预测准确度。
[0021]在又一方面,本公开的实施例提出了利用从历史硬件故障数据获得的训练数据集来训练硬件故障检测模型。训练数据集可以包括硬件更换标签(ticket)集合、历史硬件事
件日志集合以及与硬件更换标签集合相对应的历史性能信号集合。在本文中,硬件更换标签可以指指示哪个硬件组件发生故障并将被更换的标签。历史性能信号的量是巨大的。为了从海量的历史性能信号中收集到合适的历史性能信号,本公开的实施例提出了通过启发式迭代过程来收集历史性能信号集合。
[0022]在再一方面,本公开的实施例提出了从硬件更换标签集合中滤除低置信度标签,以提高训练数据集的质量。在本文中,低置信度标签可以指低质量标签,例如没有使机器恢复服务的标签。可以通过故障事件时间线分析来滤除低置信度标签。例如,在预定时间段内的一个或多个硬件更换标签中的使机器恢复服务的仅最后一个硬件更换标签可以被视为真实标注,而在该预定时间段内的其他硬件更换标签应当被视为低置信度标签并且因此被滤除。
[0023]应当理解,尽管前述讨论和以下讨论可能涉及对提供云服务的机器执行硬件故障检测的示例,但本公开的实施例并不局限于此,而是可以以类似的方式对任何其他机器,例如本地服务器、个人计算机等等,执行硬件故障检测。
[0024]图1示出了根据本公开实施例的用于基于多模态特征融合来执行硬件故障检测的示例性过程100。通过过程100,可以检测机器中的至少一个故障硬件组件。机器可以是提供云服务的服务器、本地服务器、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于基于多模态特征融合来执行硬件故障检测的方法,包括:获得机器的硬件事件日志集合,所述机器包括多个硬件组件;获得所述机器的性能信号集合,所述性能信号集合是时序数据;以及基于所述硬件事件日志集合和所述性能信号集合,检测所述机器中的至少一个故障硬件组件。2.根据权利要求1所述的方法,其中,所述硬件事件日志集合对应于第一时间段,所述性能信号集合对应于第二时间段,并且所述第一时间段的结束时间与所述第二时间段的结束时间对齐。3.根据权利要求1所述的方法,其中,所述检测至少一个故障硬件组件包括:基于所述硬件事件日志集合,生成日志嵌入向量;基于所述性能信号集合,生成性能信号嵌入向量;以及基于所述日志嵌入向量和所述性能信号嵌入向量,检测所述至少一个故障硬件组件。4.根据权利要求3所述的方法,其中,所述生成日志嵌入向量包括:从预定模式集合中识别所述硬件事件日志集合中的每个硬件事件日志的模式,以获得识别模式集合;确定与所述识别模式集合中的每个模式相对应的值,以获得与所述识别模式集合相对应的值集合;以及至少基于所述值集合,生成所述日志嵌入向量。5.根据权利要求4所述的方法,其中,所述识别每个硬件事件日志的模式包括:通过针对所述硬件事件日志使用正则表达式和/或最长公共子序列检测来识别所述硬件事件日志的所述模式。6.根据权利要求4所述的方法,其中,所述确定与每个模式相对应的值包括:对所述硬件事件日志集合中的具有所述模式的硬件事件日志的数量进行计数;基于所述模式在所述硬件事件日志集合中的出现频率,确定所述模式的权重;以及基于所述数量和所述权重,确定所述值。7.根据权利要求3所述的方法,其中,所述生成性能信号嵌入向量包括:生成所述性能信号集合中的每个性能信号的观察特征向量,以获得与所述性能信号集合相对应的观察特征向量集合;以及将所述观察特征向量集合组合到所述性能信号嵌入向量中。8.根据权利要求7所述的方法,其中,所述生成每个性能信号的观察特征向量包括:滤除所述性能信号中的尖峰点,以获得经更新的性能信号;将经更新的性能信号划分为多个性能信号片段;生成所述多个性能信号片段中的每个性能信号片段的语义特征向量,以获得与所述多个性能信号片段相对应的多个语义特征向量;以及将所述多个语义特征向量组合成所述观察特征向量。9.根据权利要求8所述的方法,其中,所述生成每个性能信号片段的语义特征向量包括:通过将所述性能信号片段从时域变换到频域来获得所述性能信号片段的频谱特征向量;以及
通过分类器将所述频谱特征向量转换为所述性能信号片段的所述语义特征向量。10.根据权利要求1所述的方法,其中,所述至少一个故障硬件组件是通过硬件故障检测模型检测的,并且对所述硬件故障检测模型的训练至少包括从历史硬件故障数据中获得用于所述硬件故障检测模型的训练数据集。11.根据权利要求10所述的方法,其中,所述获得用于所述硬件故障检测模型的训练数据集包括:获得硬件更换标签集合;收集与所述硬件更换标签集合相对应的历史硬件事件日志集合;收集与所述硬件更换标签集合相...

【专利技术属性】
技术研发人员:徐黄浩郭迪邓峰杰桑骏骏N
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1