数据标注方法、装置、设备及介质制造方法及图纸

技术编号:30413845 阅读:21 留言:0更新日期:2021-10-24 16:15
本发明专利技术实施例公开了一种数据标注方法、装置、设备及介质。该方法包括:每隔预设时间段,抓取目标系统的至少一个第一错误信息;计算每一个第一错误信息与每一个第二错误信息的相似度,其中,第二错误信息为从用于处理目标系统故障的故障处理系统中爬取到的错误信息;标注大于预设相似度阈值的相似度对应的第一错误信息。本发明专利技术实施例的数据标注方法、装置、设备及介质,能够提高数据标注的准确性。能够提高数据标注的准确性。能够提高数据标注的准确性。

【技术实现步骤摘要】
数据标注方法、装置、设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据标注方法、装置、设备及介质。

技术介绍

[0002]随着互联网技术和计算机科学技术的不断发展,人工智能愈演愈烈。人工智能发展到今天,数据的作用被越来越凸显出来。数据标注的周期、成本和准确性直接影响了一个人工智能公司的行业竞争力。其中,数据标注是对人工智能学习数据进行加工的一种行为。
[0003]目前,对数据进行标注主要采用人工标注。采用人工进行数据标注准确性较差。

技术实现思路

[0004]本专利技术实施例提供一种数据标注方法、装置、设备及介质,能够提高数据标注的准确性。
[0005]第一方面,本专利技术实施例提供了一种数据标注方法,包括:
[0006]每隔预设时间段,抓取目标系统的至少一个第一错误信息;
[0007]计算每一个第一错误信息与每一个第二错误信息的相似度,其中,第二错误信息为从用于处理目标系统故障的故障处理系统中爬取到的错误信息;
[0008]标注大于预设相似度阈值的相似度对应的第一错误信息。
[0009]在本专利技术实施例的一些可能实现中,每隔预设时间段,抓取目标系统的至少一个第一错误信息,包括:
[0010]每隔预设时间段,利用用于抓取错误信息的探针,抓取目标系统的至少一个第一错误信息。
[0011]在本专利技术实施例的一些可能实现中,在计算每一个第一错误信息与每一个第二错误信息的相似度之前,本专利技术实施例提供的数据标注方法还包括:
[0012]将至少一个第一错误信息进行聚类。
[0013]在本专利技术实施例的一些可能实现中,本专利技术实施例提供的数据标注方法还包括:
[0014]标注已标注的第一错误信息对应的请求时间。
[0015]第二方面,本专利技术实施例提供了一种数据标注装置,包括:
[0016]抓取模块,用于每隔预设时间段,抓取目标系统的至少一个第一错误信息;
[0017]计算模块,用于计算每一个第一错误信息与每一个第二错误信息的相似度,其中,第二错误信息为从用于处理目标系统故障的故障处理系统中爬取到的错误信息;
[0018]标注模块,用于标注大于预设相似度阈值的相似度对应的第一错误信息。
[0019]在本专利技术实施例的一些可能实现中,抓取模块,具体用于:
[0020]每隔预设时间段,利用用于抓取错误信息的探针,抓取目标系统的至少一个第一错误信息。
[0021]在本专利技术实施例的一些可能实现中,本专利技术实施例提供的数据标注装置还包括:
[0022]聚类模块,用于将至少一个第一错误信息进行聚类。
[0023]在本专利技术实施例的一些可能实现中,标注模块,还用于:
[0024]标注已标注的第一错误信息对应的请求时间。
[0025]第三方面,本专利技术实施例提供一种数据标注设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;
[0026]处理器执行计算机程序时实现本专利技术实施例第一方面或第一方面任一可能的实现方式中的数据备份方法。
[0027]第四方面,本专利技术实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本专利技术实施例第一方面或第一方面任一可能的实现方式中的数据标注方法。
[0028]本专利技术实施例的数据标注方法、装置、设备及介质,能够对数据进行自动标注,相对于现有技术的人工标注,能够提高数据标注的准确性,并且能够提高数据标注的速度和效率。
附图说明
[0029]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1为本专利技术实施例提供的一种数据标注方法的流程示意图;
[0031]图2为本专利技术实施例提供的一种数据标注装置的结构示意图;
[0032]图3为本专利技术实施例提供的一种计算设备的硬件架构的结构图。
具体实施方式
[0033]下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。
[0034]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0035]当前现有技术在做数据标注的时候,一方面采用人工方式对全量数据逐一标注,耗时耗力,大大影响标注效率且标准确性较差,另一方面采用人工方式对筛选的一部分数据进行标注,然后利用机器学习对其他数据进行标注,尽管大大提升了标注效率,但是存在漏标或标注准确性得不到保障的问题。针对互联网技术(Internet Technology,IT)系统中超大数据量的时间序列性能数据做标注,工作量比较大。
[0036]IT系统时间序列性能数据的数据维度包括并不限于请求时间戳、响应时间、错误次数、慢请求数、请求次数等量化的性能指标数据,并不包括具体的错误原因或慢请求原因等描述性数据,针对上述的多维数据通过人工智能(Artificial Intelligence,AI)算法可以计算出某一时刻是否是异常,但是这个异常仅仅是模型输出的异常,是否是真实异常则需要运维人员来做标注。运维人员在做标注时,需要根据IT系统所在的组件是否报错,或所使用的资源是否紧张情况来推测该时间点应用是否异常,标注的难度较大、效率较低、准确性也较低。而IT系统是否存在异常需要应用系统本身处理的请求是否出错,以及出错的具体原因来确定应用系统是否存在异常。
[0037]基于上述,本专利技术实施例提供了一种数据标注方法、装置、设备及介质。下面首先对本专利技术实施例提供的数据标注方法进行详细说明。
[0038]图1为本专利技术实施例提供的一种数据标注方法的流程示意图。数据标注方法可以包括:
[0039]S101:每隔预设时间段,抓取目标系统的至少一个第一错误信息。
[0040]S102:计算每一个第一错误信息与每一个第二错误信息的相似度。
[0041]其中,第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:每隔预设时间段,抓取目标系统的至少一个第一错误信息;计算每一个第一错误信息与每一个第二错误信息的相似度,其中,所述第二错误信息为从用于处理所述目标系统故障的故障处理系统中爬取到的错误信息;标注大于预设相似度阈值的相似度对应的第一错误信息。2.根据权利要求1所述的方法,其特征在于,所述每隔预设时间段,抓取目标系统的至少一个第一错误信息,包括:每隔预设时间段,利用用于抓取错误信息的探针,抓取目标系统的至少一个第一错误信息。3.根据权利要求1所述的方法,其特征在于,在所述计算每一个第一错误信息与每一个第二错误信息的相似度之前,所述方法还包括:将所述至少一个第一错误信息进行聚类。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:标注已标注的第一错误信息对应的请求时间。5.一种数据标注装置,其特征在于,所述装置包括:抓取模块,用于每隔预设时间段,抓取目标系统的至少一个第一错误信息;计算模块,用于计算每一个第一错误信息与每一个第二错...

【专利技术属性】
技术研发人员:左涛王凤
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1