【技术实现步骤摘要】
一种归类抽取试验数据的方法
[0001]本专利技术涉及数据处理
,特别是一种抽取试验数据的方法。
技术介绍
[0002]在力热实验室中,历年的试验数据文件(原始测量数据、检测指标结果,试验报告等)未统一格式和分类处理,每次试验的数据文件放在单个的文件夹。现要将这些文件中的数据归类提取成统规范的数据集,便于进一步的挖掘分析。
[0003]然而现有技术方案需要技术人员手工进行分类和划分试验数据。在处理过程中,因为试验样品、检测指标、试验设备等不同,导致试验数据文件的格式也不同,并且文件格式的类别多样、数量不明确,因此无法形成固定的抽取模式。而且单个数据文件非常大,数据文件中还夹杂着待抽取的试验描述信息,技术人员难以操作,负担较重。
技术实现思路
[0004]鉴于此,本专利技术提供一种抽取试验数据的方法,采用无监督聚类的方法,不需要对试验数据进行标注训练,操作简便、省时;采用文件结构属性特征强特征进行相似度判断,可以精确快速实现文件聚类。
[0005]本专利技术公开了一种归类抽取试验数据的方法,包括以下步骤:
[0006]步骤1:提取待分类文件夹内文件的属性特征;
[0007]步骤2:对步骤1中提取的文件属性特征进行标准化和归一化处理;
[0008]步骤3:将每次试验带有试验描述信息的文件文本进行预处理并统计文本词频;
[0009]步骤4:利用文件属性特征、文件扩展名词频特征和描述文本词频特征对试验文件采用k
‑
means++聚类方法进 ...
【技术保护点】
【技术特征摘要】
1.一种归类抽取试验数据的方法,其特征在于,包括以下步骤:步骤1:提取待分类文件夹内文件的属性特征;步骤2:对步骤1中提取的文件属性特征进行标准化和归一化处理;步骤3:将每次试验带有试验描述信息的文件文本进行预处理并统计文本词频;步骤4:利用文件属性特征、文件扩展名词频特征和描述文本词频特征对试验文件采用k
‑
means++聚类方法进行聚类;步骤5:对完成聚类的试验文件利用正则表达式去抽取所需要的试验描述信息和试验数据。2.根据权利要求1所述的方法,其特征在于,对于所述步骤1中的文件夹内的属性特征统计,需要统计的属性特征包括:整个文件夹大小、试验报告文件平均大小、测量数据文件平均大小,文件夹创建时间,文件扩展名词频;所有文件需在完全解压状态下。3.根据权利要求2所述的方法,其特征在于,文件扩展名是文件的格式标识,试验报告文件是以扩展名为DOC或者DOCX的Word文档文件,或者是图片文件;数据文件是以扩展名为CSV、XLSX的文件;其中,所述图片文件的格式包括JPEG、PNG、TIFF。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述步骤1具体包括:步骤1
‑
1:统计扩展名词频和文件夹大小;其中,所述扩展名词频为文件夹内文件后缀名的出现频率;步骤1
‑
2:统计试验报告和数据文件平均大小,即对应扩展名的文件大小除以对应扩展名数量;若文件夹内没有对应扩展名文件,当扩展名数量为0时,直接确定文件平均容量大小为0;整个文件夹大小为所有容量之和。5.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:将文件大小的单位统一为字节B,文件夹创建时间转化为时间戳;对于文件大小和时间戳均采用最大最小归一化,即通过缩放将文件夹内的每一个属性特征的取值范围归一到[0,1],其计算公式为:公式中,x表示单个数据的取值,min和max分别是特征在所有样本上的最小值和最大值,x
′
是每一个属性特征缩放后的计算结果。6.根据权利要求1所述的方法,其特征在于,所述步骤3中的预处理具体包括:去除内容中的非文本部分、分词、停用词;对于非文本内容,直接用Python的正则表达式去除;对于分词,采用jieba库分词;对于停用词,利用停用词表去除停用词;所述停用词是与文件聚类无关的词语。7.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:采用改进的k
‑
means++聚类算法,把每个试验的文件属性特征、文件扩展名词频特征和描述文本词频特征看成一个样本,其聚类的过程为:步骤4
‑
1:随机选取一个样本作为第一个聚类中心c1;步骤4
‑
2:接着计算每个样本与当前已有聚类中心之间的特征相似度,用Sim(x)表示;然后计算每个样本点被选为下一个聚类中心的概率P(x),最后选择最大概率值所对应的样本点作为下一个簇中心;P(x)的计算公式为:
公式中,X表示试验数据集,x表示从数据集X中随机选取的一个样本点;步骤4
‑
3:重复步骤4
‑
2,直到选择出k个聚类中心;步骤4
‑
4:将k个聚类中心设为x1,x2,
…
x
k
【专利技术属性】
技术研发人员:杨春明,张立滔,张晖,肖德成,李波,赵旭剑,
申请(专利权)人:西南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。