训练方法及装置、数据处理方法及装置、设备、可读介质制造方法及图纸

技术编号:37664988 阅读:12 留言:0更新日期:2023-05-26 04:22
本公开提供了一种训练方法及装置、数据处理方法及装置、设备、可读介质,该训练方法包括:将多个第一训练样本输入待训练的结构化数据模型,利用多个第一训练样本训练待训练的结构化数据模型,获得并输出结构化数据;在结构化数据与标准数据之间的损失值小于预设的第一损失阈值的情况下,获得训练好的结构化数据模型。根据本公开的实施例能够提高数据结构化的普适性,降低维护成本。降低维护成本。降低维护成本。

【技术实现步骤摘要】
训练方法及装置、数据处理方法及装置、设备、可读介质


[0001]本公开涉及计算机
,特别涉及一种训练方法及装置、数据处理方法及装置、设备、可读介质。

技术介绍

[0002]每个应用程序的运行都会产生应用日志,通常以日志文件的形式存储在应用中。日志文件对于掌握应用程序的运行状况、排查应用程序的运行故障都起到很重要的作用,是应用程序不可或缺的部分。

技术实现思路

[0003]本公开提供一种训练方法及装置、数据处理方法及装置、设备、可读介质。
[0004]第一方面,本公开提供了一种结构化数据模型的训练方法,该方法包括:
[0005]将多个第一训练样本输入待训练的结构化数据模型,利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据;
[0006]在所述结构化数据与标准数据之间的损失值小于预设的第一损失阈值的情况下,获得训练好的所述结构化数据模型;
[0007]所述利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据,包括:
[0008]对第一训练样本进行打码处理,得到多个语料句子;其中,每个所述第一训练样本对应的多个语料句子中的打码位置不同;
[0009]根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;
[0010]基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;
[0011]基于各个所述打码位置的属性对所述第一训练样本中各个所述打码位置的字符进行替换,获得所述结构化数据。
[0012]本公开所提供的实施例,对第一训练样本进行打码得到多个语料句子,再基于打码位置的属性对第一训练样本进行结构化,而打码位置的属性是基于语料句子中未打码文字的语义和预设的词库来预测每个词在各个打码位置出现的概率,即该训练方法是基于未打码文字的语义和词库来确定打码位置的属性,然后基于打码位置的属性对第一训练文本进行结构化处理,这种方式不依据第一训练样本的格式进行结构化处理,具有普适性,而且不需要对不同格式的第一训练样本进行单独训练,降低了维护成本。
[0013]第二方面,本公开提供了一种日志数据处理方法,该日志数据处理方法包括:
[0014]获取多个待处理日志;
[0015]将所述多个待处理日志输入结构化数据模型,利用所述结构化数据模型对所述多个待处理日志进行处理,获得并输出所述待处理日志对应的结构化日志;其中,所述结构化
数据模型采用本公开实施例提供的所述的训练方法获得的模型;
[0016]利用所述结构化数据模型对所述多个待处理日志进行处理,包括:
[0017]对所述多个待处理日志进行打码处理,得到多个语料句子;其中,每个所述待处理日志对应的多个语料句子中的打码位置不同;
[0018]根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;
[0019]基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;
[0020]基于各个所述打码位置的属性对所述待处理日志中各个所述打码位置的字符进行替换,获得所述结构化日志。
[0021]本公开所提供的实施例,通过模型训练方法获得结构化数据模型,利用该结构化数据模型可以快速地将非结构化数据转换为结构化数据,该结构化数据模型普适性高,适用于不同的应用程序,不需要针对每个应用程序定制正则表达式,降低了人力成本,而且该结构化数据模型容易维护,降低了维护成本。此外,利用该结构化数据模型可以快速地将非结构化数据转换为结构化数据,可以提高后续日志数据处理的效率。
[0022]第三方面,本公开提供了一种用于训练结构化数据模型的装置,该用于训练结构化数据模型的装置包括:
[0023]输入模块,用于将多个第一训练样本输入待训练的结构化数据模型;
[0024]训练模块,用于利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得结构化数据;
[0025]输出模块,用于输出所述结构化数据;
[0026]确定模块,用于在所述结构化数据与标准数据之间的损失值小于预设的第一损失阈值的情况下,确定训练好的所述结构化数据模型;
[0027]所述利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据,包括:
[0028]对所述多个第一训练样本进行打码处理,得到多个语料句子;其中,每个所述第一训练样本对应的多个语料句子中的打码位置不同;
[0029]根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;
[0030]基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;
[0031]用于基于各个所述打码位置的属性对所述第一训练样本中各个所述打码位置的字符进行替换,获得所述结构化数据。
[0032]第四方面,本公开提供了一种日志数据处理装置,该日志数据处理装置包括:
[0033]获取模块,用于获取多个待处理日志;
[0034]处理模块,用于将所述多个待处理日志输入结构化数据模型,利用所述结构化数据模型对所述多个待处理日志进行处理,获得并输出所述待处理日志对应的结构化日志;其中,所述结构化数据模型采用本公开实施例提供的所述的训练方法获得的模型;
[0035]所述利用所述结构化数据模型对所述多个待处理日志进行处理,包括:
[0036]对所述多个待处理日志进行打码处理,得到多个语料句子;其中,每个所述待处理日志对应的多个语料句子中的打码位置不同;
[0037]根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;
[0038]基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;
[0039]基于各个所述打码位置的属性对所述待处理日志中各个所述打码位置的字符进行替换,获得所述结构化日志。
[0040]第五方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的结构化数据模型的训练方法或日志数据处理方法。
[0041]第六方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的结构化数据模型的训练方法或日志数据处理方法。
[0042]第七方面,本公开提供了一种计算机程序或计算机程序产品,该计算机程序产品包括计算机程序,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化数据模型的训练方法,其特征在于,包括:将多个第一训练样本输入待训练的结构化数据模型,利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据;在所述结构化数据与标准数据之间的损失值小于预设的第一损失阈值的情况下,获得训练好的所述结构化数据模型;所述利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据,包括:对第一训练样本进行打码处理,得到多个语料句子;其中,每个所述第一训练样本对应的多个语料句子中的打码位置不同;根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;基于各个所述打码位置的属性对所述第一训练样本中各个所述打码位置的字符进行替换,获得并输出所述结构化数据。2.根据权利要求1所述的方法,其特征在于,所述打码位置包括标记符、随机词和保留词,其中,所述标记符用于替换所述第一训练样本中的字符的符号,所述随机词是用于替换所述第一训练样本中的字符的词语,所述保留词是所述第一训练样本中的原有的字符。3.根据权利要求1所述的方法,其特征在于,所述打码位置的属性包括常量和变量;所述基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性,包括:若存在所述概率大于或等于预设的概率阈值的候选词,则确定所述打码位置的属性为常量;若所述词库中的所有词在所述打码位置出现的概率小于预设的概率阈值,则确定所述打码位置的属性为变量。4.根据权利要求3所述的方法,其特征在于,所述基于各个所述打码位置的属性对所述第一训练样本中各个所述打码位置的字符进行替换,获得所述结构化数据,包括:利用通配符替换所述第一训练样本中属性为变量的所述打码位置的字符,获得所述结构化数据。5.根据权利要求3所述的方法,其特征在于,所述第一训练样本是基于历史日志生成的样本;所述对第一训练样本进行打码处理,得到多个语料句子之前,还包括:将所述第一训练样本中对所述第一训练样本的语义无实质贡献的字符删除。6.一种日志数据处理方法,其特征在于,包括:获取多个待处理日志;将所述多个待处理日志输入结构化数据模型,利用所述结构化数据模型对所述多个待处理日志进行处理,获得并输出所述待处理日志对应的结构化日志;其中,所述结构化数据模型采用权利要求1至5任意一项所述的训练方法获得的模型;所述利用所述结构化数据模型对所述多个待处理日志进行处理,获得并输出所述待处理日志对应的结构化日志,包括:对所述多个待处理日志进行打码处理,得到多个语料句子;其中,每个所述待处理日志
对应的多个语料句子中的打码位置不同;根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;基于各个所述打码位置的属性对所述待处理日志中各个所述打码位置的字符进行替换,获得并输出所述结构化日志。7.根据权利要求6所述的方法,其特征在于,所述输出每个所述待处理日志对应的结构化日志之后,还包括:将所述多个结构化日志输入日志聚类及模板抽取模型,获得所述多个结构化日志的聚类结果或新日志模板。8.根据权利要求7所述的方法,其特征在于,所述将所述多个结构化日志输入日志聚类及模板抽取模型,获得所述多个结构化日志的聚类结果或新日志模板之前,还包括:获取多个第二训练样本,并对所述多个第二训练样本进行结构化,获得多个第二结构化样本;其中,所述第二训练样本是基于历史日志产生的;将所述多个第二结构化样本输入待训练的日志聚类及模板抽取模型,所述待训练的日志聚类及模板抽取模型输出聚类结果或新日志模板;在所述聚类结果与标准聚类结果之间的损失值小于预设的第二损失阈值,以及所述新日志模板与预设的标准模板之间的损失值小于预设的第三损失阈值的情况下,获得训练好的所述日志聚类及模板抽取模型;所述待训练的日志聚类及模板抽取模型利用所述多个第二结构化样本执行以下训练步骤:对所述多个第二结构化样本进行聚类,获得所述聚类结果;基于无法聚类的所述第二结构化样本...

【专利技术属性】
技术研发人员:田科位唐蠡曾琳铖曦吴海英蒋宁
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1