System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统技术方案_技高网

用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统技术方案

技术编号:40303380 阅读:9 留言:0更新日期:2024-02-07 20:49
用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统,为了能够确信地解释各种系统的日志文件,领域专家需要进行广泛的培训。关于一个系统的知识不必转移到其它系统。领域专家手动检查日志文件,试图发现异常和有关事件。在一些情况下,可以通过日志监视工具来帮助领域专家,该日志监视工具将手工规则表达式与日志条目进行匹配,或者使用规则表达式将日志条目聚类成组。所提出的方法有利地从半结构化文本日志消息中识别序列模式,并对所识别的模式(即,块或块的一部分)进行分类,分成诸如错误、警告和信息的类别。所识别的模式表示在工业工厂中发生的更高级事件(诸如工厂范围的更新过程),并且重要部分可以在日志文件中被自动地突出显示给人类审阅者/领域专家。

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及分析工业工厂的日志文件。尤其是,本专利技术涉及分析日志文件的自动和/或半自动方法。


技术介绍

1、在计算中,日志文件是记录发生在操作系统或其它软件运行中的事件或通信软件的不同用户之间的消息的文件。

2、日志一般是保存日志的动作,意味着保存例如发生在系统或其它软件运行中的事件,或系统的不同实例之间的消息。在最简单的情况下,消息被写入单个日志文件。

3、事务日志例如是系统和该系统的用户之间的通信的文件,或者是自动捕获个人从终端与该系统进行的事务的类型、内容或时间的数据收集方法。

4、许多操作系统、软件架构和程序包括日志记录系统。广泛使用的日志记录标准例如是syslog,其在因特网工程任务组(ietf)rfc 5424中定义。syslog标准实现专用的标准化子系统生成、过滤、记录和分析日志消息。

5、包含在这种日志文件中的数据通常被组织为所谓的半结构化数据。这是结构化数据的一种形式,其可包含标签或其它标记以分离语义元素并加强数据内记录和字段的分层结构。

6、半结构化数据是结构化数据的一种形式,其没有遵循与例如关系数据库或其他形式的数据表相关联的数据模型的表格式结构,但是包含标签或其他标记以分离语义元素并加强数据内的记录和字段的分层结构。属于相同类别的实体可以具有不同的属性,即使它们被分组在一起,并且属性的顺序并不重要。由于出现了不同应用需要用于交换信息的介质的因特网,半结构化数据越来越多。

7、在工业环境中,许多有用的信息也被记录在日志文件中。在运行、自动化和工程设计系统中发生的事件以及在这些系统上运行的应用程序都被写入日志文件。因此,日志文件提供审计跟踪,意味着按时间顺序的记录、记录集合和/或记录的目的地和来源,其提供在任何时间影响特定运行、过程或事件的活动顺序的文件证据,其可用于理解系统的活动并诊断问题。它们对于理解复杂系统的活动是必要的,尤其是在具有很少用户交互的应用(诸如服务器应用)的情况下。

8、如本专利技术所使用,“工业工厂”是指用于制造/生产/分类的设施,其可以是半或完全自动化的。工业工厂可以是自动化环境的一部分。例如,制造自动化环境、实验室自动化环境、建筑物自动化环境等。此外,根据本专利技术,工业工厂可以包括诸如控制设备、传感器、致动器的工业资产的组合,这些工业资产包括物理设备和可以用于配置和控制该物理设备的数字模型。例如,计算机数字控制(cnc)机器、工业生产设施中的自动化系统、电动机、发电机等。

9、大型网络和复杂工业系统每天可以产生大量的日志数据。这使得对日志文件的人工审核是不可行的。此外,所生成的日志消息解决了系统级事件,并且不会直接转移到更高级系统(例如整个工厂)中的问题。例如,十行日志消息可以都与正在执行的一个更新过程有关。在工业系统中,由于大量不同子系统都记录它们自己的信息,这些问题更加严峻。

10、为了能够有信心地解释这些各种系统的日志文件,领域专家需要接受广泛的培训。关于一个系统的知识不一定转移到其它系统上(例如,windows日志以与wincc日志不同的方式进行解释)。类似地,建立具有关于如何解释各个日志消息的规则的知识库是耗时且昂贵的。

11、领域专家手动检查日志文件,试图发现异常和有关事件。在一些情况下,可以通过日志监视工具来帮助领域专家,该日志监视工具将手工规则表达式与日志条目进行匹配,或者使用规则表达式来将日志条目聚类成组。这样的规则表达式可以手动简短列出,使得公式化费力、耗时并且在不同类型的日志文件上不可扩展。其它现有方法包括在日志消息级别上检测模式的工具。然而,这些方法没有考虑日志条目之间的复杂模式和分层依赖性。

12、因此,用于分析工业工厂的日志文件的系统、设备和方法可能需要改进。


技术实现思路

1、本专利技术的目的是通过提供一种方法、计算机程序产品和设备来实现的,该方法、计算机程序产品和设备用于自动解释大量日志文件并识别工业工厂或综合系统中的事件。

2、本专利技术的目的通过如权利要求1所述的方法来实现。

3、为了分析以半结构化方式存储在文件中的由大量单独消息组成的数据,该方法包括以下步骤:

4、a)从文件获取单独消息(101)并以结构化方式将其存储在文本语料库(102)中,

5、b)将文本语料库(102)变换成向量空间表示(103),

6、c)计算向量空间(104)中的各个消息之间的余弦相似度,

7、d)基于计算第一聚类的相似向量之间的欧几里德距离,将具有几乎相同的余弦相似度但是具有不同的欧几里德距离(105)的单独消息(105)进行聚类,其中阈值为0.7,从而确定日志消息模板(106)。

8、提出了一种用于从半结构化文本源(如计算机日志消息)中找到消息模板的方法,半结构化文本源意味着专门针对该特定应用的唯一不可执行文件格式。

9、还提出了一种计算机程序产品和计算机设备。

10、所提出的方法有利地从半结构化文本日志消息中识别序列模式,并对所识别的模式(即,块或块的一部分)进行分类,分成诸如错误、警告和信息的类别。所识别的模式表示发生在工业工厂中的更高级事件(诸如工厂范围的更新过程),并且重要部分可以在日志文件中自动向人类审阅者/领域专家突出显示。

11、本专利技术的另一有利实施方式包括自动生成事件及其严重性的知识库以及自动检测日志文件中的异常。例如,本专利技术通过分析日志条目能够有效和自动地检测工业工厂的服务器和客户机之间的异常通信模式。本专利技术还使得能够比较相同工业内的工业工厂的操作。例如,可以通过对两个工厂进行日志文件分析来实现通过与来自可比工厂的设备进行比较来检测特定工厂的多个设备中的非典型行为。

12、直到现在,使用用于文本分析的自然语言处理(nlp)技术的标准方法被用于从半结构化文本源中创建模板,如计算机日志消息。但是,在计算机日志消息的领域中有一些具体细节要提到:

13、与“正常”文本源(例如报纸或网页)相比,所使用的词汇非常小并且是领域特定的。因此,包含几乎相同的单词但以另一序列排列的两个消息可能具有完全不同的含义:

14、“windows开始新的更新”与

15、“在新的window开始更新”。

16、通常使用的nlp技术,如“词袋模型(英语:bag-of-words)”方法,可能导致错误的结果,因为它们中的大多数不关心文本内的单词序列(faruqui,tsvetkov等人描述了计算单词向量的问题:“使用单词相似度任务评估单词嵌入的问题”,评估nlp向量空间表示的第一次研讨会,2016年)。

17、与其它现有方法直接比较,我们使用不同计算方法的组合(如vijaymeena,kaitha所描述:“文本挖掘中相似度度量的调查”,机器学习与应用:国际期刊(mlaij)第3卷,第1期,2016年3月),并将其应用于具有缩减词汇集的日志消息。只有一种计算方法被用本文档来自技高网...

【技术保护点】

1.一种用于分析由以半结构化方式存储在文件中的大量单独消息组成的数据的方法,包括以下步骤:

2.根据权利要求1所述的用于分析的方法,其特征在于,e)重复步骤d),在给定的第一聚类中执行至少一次额外的聚类。

3.根据前述权利要求中任一项所述的用于分析数据的方法,其特征在于,一个单独消息对应于工业应用中的一个日志消息。

4.根据前述权利要求中任一项所述的用于分析数据的方法,其特征在于,在所述文本语料库中,存在具有额外信息的至少一个其他列。

5.根据前述权利要求中任一项所述的用于分析日志文件的方法,其特征在于,步骤c)通过编辑距离法或WordNet相似度来计算向量空间(104)中不同消息之间的所述余弦相似度。

6.根据前述权利要求中任一项所述的用于分析日志文件的方法,其特征在于,步骤b)包括使用词频-逆文档频率(TF-IDF)转换器。

7.根据前述权利要求中任一项所述的用于分析数据的方法,其特征在于,针对每个聚类运行所述方法,重复步骤b)和步骤c),从而提取所述消息的至少一个常量和一个变化部分。

8.根据前述权利要求中任一项所述的用于分析数据的方法,其特征在于,生成日志消息、对应事件及其严重性的知识库,用于自动检测日志文件中的异常。

9.根据前述权利要求中任一项所述的用于分析数据的方法,其特征在于,所述方法作为独立应用来执行。

10.一种适于执行根据权利要求1至9中任一项所述的方法的步骤的计算机程序产品。

11.一种适于执行根据权利要求10所述的方法的步骤的计算机设备。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于分析由以半结构化方式存储在文件中的大量单独消息组成的数据的方法,包括以下步骤:

2.根据权利要求1所述的用于分析的方法,其特征在于,e)重复步骤d),在给定的第一聚类中执行至少一次额外的聚类。

3.根据前述权利要求中任一项所述的用于分析数据的方法,其特征在于,一个单独消息对应于工业应用中的一个日志消息。

4.根据前述权利要求中任一项所述的用于分析数据的方法,其特征在于,在所述文本语料库中,存在具有额外信息的至少一个其他列。

5.根据前述权利要求中任一项所述的用于分析日志文件的方法,其特征在于,步骤c)通过编辑距离法或wordnet相似度来计算向量空间(104)中不同消息之间的所述余弦相似度。

6.根据前述权利要求中任一项所...

【专利技术属性】
技术研发人员:弗拉迪米尔·拉夫里克安德烈·肖尔茨
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1