System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于词频和逆文档频率的精准匹配硬件日志分类方法技术_技高网

一种基于词频和逆文档频率的精准匹配硬件日志分类方法技术

技术编号:40701136 阅读:8 留言:0更新日期:2024-03-22 10:59
本发明专利技术公开了一种基于词频和逆文档频率的精准匹配硬件日志分类方法,为基于精准正则匹配算法以及词频和逆文档频率算法对日志进行整理、分类,管理硬件日志和其他文本的辅助程序设计和维护的方法。该方法利用正则匹配进行精准匹配和模糊匹配,从而进行日志的有效整理和分类,并进行原文和筛选的记录和保存,同时新增支持用户自定义筛选规则,如果有默认功能之外的需求,用户可以根据自己的具体需求进行自定义筛选。本发明专利技术对复杂和繁琐的硬件开发过程中的日志文件和其他相应文件进行筛选、整理和归类,高效地提取针对本次研发的有用信息,极大地简化了开发流程的的调试环节,缩短了测试和调试的时间,优化了开发过程的测试的效率。

【技术实现步骤摘要】

本专利技术属于硬件开发与测试,更为具体地讲,涉及一种基于词频(termfrequency)和逆文档频率(inverse document frequency)的精准匹配硬件日志分类方法,用于硬件开发语言和编辑器的通用开发和代码处理以及分析的过程。


技术介绍

1、硬件系统开发和调试与软件开发和调试相比,虽然各自有自己的规则和不同的编译环境/编译器,但从开发流程上来讲,都存在着开发→运行→调试→测试→发布等一系列过程。

2、和软件开发相比,硬件开发和调试过程存在着明显的几个特点,包括涉及相关硬件模块太多,运行和写入时间过长,调试和测试过程繁琐,日志文件过长等。在开发流程的一系列过程中,调试和测试是开发流程中最消耗时间和精力的过程。

3、硬件系统日志文件具有以下特点:

4、1、硬件系统开发设计的模块多且难以分类

5、相对于其他开发,硬件系统的开发和调试过程往往涉及到更多的硬件模块、传输通道、寄存器以及时序等。每一个模块有一个至若干个功能和变化,很多时候难以具体区分,这也就导致了我们很难去细分整个硬件系统的调试日志文件。大多数时候,整个硬件系统的日志文件会直接打包所有的日志在一起,由于涉及到的逻辑过多,导致日志文件过于庞大,动则成千上万行。这也就导致了开发人员需要花费极大的精力去理清楚模块。

6、2、过多的自设日志

7、一般程序或使用框架的时候,系统都会自带自定的自设日志来帮助记录核心或敏感功能的运行过程,从而帮助开发人员进行有效的测试。但由于在硬件系统中大部分没有明确的区分,所以通常这些日志也会被加入到通用日志中,从而大大影响开发者查看自己的日志的难度。

8、3、区分不同级别的日志

9、在常规的日志记录中,同样存在了不同级别的提示,主要包括“warning”(警告)、“info”(信息)以及“error”(错误)等,这些词语通常用于日志记录或程序输出中,表示不同的类型的消息。虽然这些提示都非常重要,但毕竟发挥了不同的作用,有的时候,开发人员并不会在每一次调试中关心所有的提示。

10、4、存储性和实时性

11、日志包括临时缓存日志和长期保留的日志。在硬件系统调试过程中,大部分的日志都是在写入过程中产生的临时日志,会随着再次运行或设备重启而清理,这样就减少了开发人员在整体开发过程中的对比和跟进过程,也会增加开发负担。

12、如果能够提供一种能够简化并优化日志阅读和分析的过程,帮助开发人员从繁琐的测试信息中快速定位错误和警告,将可以帮助开发人员大大的降低调试和测试的时间和精力消耗。


技术实现思路

1、本专利技术的目的在于针对硬件系统开发过程中,日志系统过于复杂,需要进行简化便捷和管理,利用正则匹配进行精准匹配和模糊匹配,从而进行日志的有效整理和分类,并进行原文和筛选的记录和保存,同时新增支持用户自定义筛选规则,如果有默认功能之外的需求,用户可以根据自己的具体需求进行自定义筛选。

2、为了实现上述的功能本本专利技术基于词频和逆文档频率的精准匹配硬件日志分类方法,其特征在于,包括以下步骤:

3、(1)、获取日志文件

4、上传或直接复制的方式,获取硬件开发过程中产生的日志文件;

5、(2)、选择算法

6、所述算法包括两种算法,分别是词频和逆文档频率算法以及正则匹配算法,其中,正则匹配算法是必须开启的算法,用户根据自己的需求决定是否开启词频和逆文档频率算法,词频和逆文档频率算法包括可以单独开启的词频算法以及在开启词频算法基础上进一步开启的逆文档频率算法;

7、(3)、选择模式

8、基于正则匹配算法包含常规模式和额外的用户自定义模式,用户根据自己的需要进行选择;

9、在常规模式中,提供一些常见的利于硬件系统开发的模式,包括常见的“warning”(警告)、“info”(信息)以及“error”(错误)的分类模式以及进行所有分类的全分类模式;

10、在用户自定义模式中,是针对某些特定的场合或者特定的需求,用户根据自己的需求或特制系统的需求进行额外功能的规定和定制;

11、(4)、获取匹配规则或格式

12、根据选择的模式获取匹配规则或格式:

13、如果步骤(3)中,选择的模式为常规模式,则根据选择的常规模式,自动获取相应的匹配规则;

14、如果选择用户自定义模式,则需要用户输入自己的需求即匹配格式;

15、(5)、转义

16、对匹配规则或用户输入的匹配格式进行转义,以便于用户的快速理解和开发,也为不具备正则相关知识的用户提供便捷的使用可能;

17、(6)、进行匹配运算

18、针对获得日志文件和转义后的匹配规则或格式进行匹配运算,包括匹配查找、匹配结果获取、筛选并清理匹配结果、迭代运算、整理和归类步骤:

19、6.1)、匹配查找

20、首先需要在所有获得的日志文件中匹配查找,即是把步骤(5)中进行转义后的匹配规则或格式,对所有日志文件进行查找运算:如果没有做限定的,则进行全查找模式即把日志文件中所有满足匹配规则或格式的项都筛选匹配;

21、6.2)、匹配结果获取

22、对查找到的匹配结果进行提取,得到匹配文件,如果需要,向前/后索引到所需提取的内容,而不单单是只提取匹配的内容,此外,默认按照不同的序号进行分类;

23、6.3)、筛选并清理匹配结果

24、筛选提取匹配结果为有效信息,保存照清除筛选提取的匹配结果后的日志并进行对比,以便能更好的分析出开发遇到的问题;

25、6.4)、迭代运算

26、清除筛选提取的匹配结果后的日志文件供下一轮的筛选,支持多轮筛选,默认按照日志中的索引号进行分类,所有索引号相同的日志列到一个文件;

27、6.5)、整理和归类

28、最后将所有的日志文件,包含获取的日志文件、所有匹配文件以及清除筛选后索引号分类的文件,都整理并罗列出来,供用户快速查阅;

29、(7)、进行词频算法运算

30、如果在步骤(2)中开启了基于词频算法,则对步骤(6)得到的所有日志文件进行词频算法运算:

31、7.1)、分词

32、对转义后的匹配规则或格式中的关键词和筛选后的所有日志文件进行分词运算,从而得到核心分词词组;

33、7.2)、统计

34、对每个核心分词词组进行计数,记录每个核心分词词组在出现的次数;

35、7.3)、标准化

36、将每个核心分词词组在出现的次数除以日志文件中总的词数,得到词频tf(t,d):

37、

38、其中,nt,d表示核心分词词组t在日志文件d中出现的次数,nk,d表示任一核心分词词组k在日志文件d中出现的次数,∑knk,d表示日志文件d中总的词数;本文档来自技高网...

【技术保护点】

1.一种基于词频和逆文档频率的精准匹配硬件日志分类方法,其特征在于,包括以下步骤:

【技术特征摘要】

1.一种基于词频和逆文档频率的精准匹配硬件...

【专利技术属性】
技术研发人员:余骁禹曾浩王猛郭连平田雨蒋俊田书林
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1