一种归类抽取试验数据的方法技术

技术编号:34772312 阅读:15 留言:0更新日期:2022-08-31 19:36
本发明专利技术公开了一种归类抽取试验数据的方法,该方法包括:提取待分类文件夹内文件的属性特征;对提取的文件属性特征进行标准化和归一化处理;将每次试验带有试验描述信息的文件文本进行预处理并统计文本词频;利用文件属性特征、文件扩展名词频特征和描述文本词频特征对试验文件采用k

【技术实现步骤摘要】
一种归类抽取试验数据的方法


[0001]本专利技术涉及数据处理
,特别是一种抽取试验数据的方法。

技术介绍

[0002]在力热实验室中,历年的试验数据文件(原始测量数据、检测指标结果,试验报告等)未统一格式和分类处理,每次试验的数据文件放在单个的文件夹。现要将这些文件中的数据归类提取成统规范的数据集,便于进一步的挖掘分析。
[0003]然而现有技术方案需要技术人员手工进行分类和划分试验数据。在处理过程中,因为试验样品、检测指标、试验设备等不同,导致试验数据文件的格式也不同,并且文件格式的类别多样、数量不明确,因此无法形成固定的抽取模式。而且单个数据文件非常大,数据文件中还夹杂着待抽取的试验描述信息,技术人员难以操作,负担较重。

技术实现思路

[0004]鉴于此,本专利技术提供一种抽取试验数据的方法,采用无监督聚类的方法,不需要对试验数据进行标注训练,操作简便、省时;采用文件结构属性特征强特征进行相似度判断,可以精确快速实现文件聚类。
[0005]本专利技术公开了一种归类抽取试验数据的方法,包括以下步骤:
[0006]步骤1:提取待分类文件夹内文件的属性特征;
[0007]步骤2:对步骤1中提取的文件属性特征进行标准化和归一化处理;
[0008]步骤3:将每次试验带有试验描述信息的文件文本进行预处理并统计文本词频;
[0009]步骤4:利用文件属性特征、文件扩展名词频特征和描述文本词频特征对试验文件采用k

means++聚类方法进行聚类;
[0010]步骤5:对完成聚类的试验文件利用正则表达式去抽取所需要的试验描述信息和试验数据。
[0011]进一步地,对于所述步骤1中的文件夹内的属性特征统计,需要统计的属性特征包括:整个文件夹大小、试验报告文件平均大小、测量数据文件平均大小,文件夹创建时间,文件扩展名词频;所有文件需在完全解压状态下。
[0012]进一步地,文件扩展名是文件的格式标识,试验报告文件是以扩展名为DOC或者DOCX的Word文档文件,或者是图片文件;数据文件是以扩展名为CSV、XLSX的文件;其中,所述图片文件的格式包括JPEG、PNG、TIFF。
[0013]进一步地,所述步骤1具体包括:
[0014]步骤1

1:统计扩展名词频和文件夹大小;其中,所述扩展名词频为文件夹内文件后缀名的出现频率;
[0015]步骤1

2:统计试验报告和数据文件平均大小,即对应扩展名的文件大小除以对应扩展名数量;若文件夹内没有对应扩展名文件,当扩展名数量为0时,直接确定文件平均容量大小为0;整个文件夹大小为所有容量之和。
[0016]进一步地,所述步骤2具体包括:
[0017]将文件大小的单位统一为字节B,文件夹创建时间转化为时间戳;
[0018]对于文件大小和时间戳均采用最大最小归一化,即通过缩放将文件夹内的每一个属性特征的取值范围归一到[0,1],其计算公式为:
[0019][0020]公式中,x表示单个数据的取值,min和max分别是特征在所有样本上的最小值和最大值,x

是每一个属性特征缩放后的计算结果。
[0021]进一步地,所述步骤3中的预处理具体包括:
[0022]去除内容中的非文本部分、分词、停用词;对于非文本内容,直接用Python的正则表达式去除;对于分词,采用jieba库分词;对于停用词,利用停用词表去除停用词;所述停用词是与文件聚类无关的词语。
[0023]进一步地,所述步骤4具体包括:
[0024]采用改进的k

means++聚类算法,把每个试验的文件属性特征、文件扩展名词频特征和描述文本词频特征看成一个样本,其聚类的过程为:
[0025]步骤4

1:随机选取一个样本作为第一个聚类中心c1;
[0026]步骤4

2:接着计算每个样本与当前已有聚类中心之间的特征相似度,用Sim(x)表示;然后计算每个样本点被选为下一个聚类中心的概率P(x),最后选择最大概率值所对应的样本点作为下一个簇中心;P(x)的计算公式为:
[0027][0028]公式中,X表示试验数据集,x表示从数据集X中随机选取的一个样本点;
[0029]步骤4

3:重复步骤4

2,直到选择出k个聚类中心;
[0030]步骤4

4:将k个聚类中心设为x1,x2,

x
k
,对所有样本点分类,分类过程为:依次遍历除聚类中心之外的所有点,分别计算其到k个聚类中心的特征相似度,再选取相似度最大的,将其标记至该聚类中心所在的类中;
[0031]步骤4

5:使用轮廓系数来判断对应的k值取值是否合理;若轮廓系数小于0.5,则需重新确定k值或调整相似度计算的权重系数,然后重复步骤4

1至步骤4

4。
[0032]进一步地,计算样本点与聚类中心的特征相似度的具体步骤为:
[0033]步骤8

1:将词频特征向量化,使用sklearn库中的CountVectorizer工具,将各个试验文件的扩展名词频和描述文本词频分别转换为特征矩阵;
[0034]步骤8

2:分别利用余弦相似度公式计算两样本点各特征的相似度,其中,扩展名特征的余弦相似度的计算公式为:
[0035][0036]公式中,D(w
i1
,w
i2
,
……
w
in
)为扩展词向量,D
i
和D
j
分为样本点与聚类中心的向量,w为向量中某扩展名的词频特征,i、j和n均为正整数;
[0037]同理,试验描述词频特征和文件属性特征的余弦相似度计算方法均与所述步骤8

1至步骤8

2类似,仅需将向量中的特征进行替换;
[0038]步骤8

3:计算两样本点特征相似度,特征相似度Sim由文件属性特征的余弦相似度Sim
i
,试验描述词频特征的余弦相似度Sim
j
,扩展词特征的余弦相似度Sim
k
构成,η1,η2,η3分别是权重系数;特征相似度Sim的计算公式为:
[0039]Sim=η1Sim
i
+η2Sim
j
+η3Sim
k
ꢀꢀ
(4)
[0040]权重系数表示所代表特征项在聚类系统中的重要程度,若试验样本凸显更多的扩展名特征,则加重扩展名特征权重。
[0041]进一步地,计算轮廓系数的具体方法为:
[0042]步骤9

1:计算内聚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种归类抽取试验数据的方法,其特征在于,包括以下步骤:步骤1:提取待分类文件夹内文件的属性特征;步骤2:对步骤1中提取的文件属性特征进行标准化和归一化处理;步骤3:将每次试验带有试验描述信息的文件文本进行预处理并统计文本词频;步骤4:利用文件属性特征、文件扩展名词频特征和描述文本词频特征对试验文件采用k

means++聚类方法进行聚类;步骤5:对完成聚类的试验文件利用正则表达式去抽取所需要的试验描述信息和试验数据。2.根据权利要求1所述的方法,其特征在于,对于所述步骤1中的文件夹内的属性特征统计,需要统计的属性特征包括:整个文件夹大小、试验报告文件平均大小、测量数据文件平均大小,文件夹创建时间,文件扩展名词频;所有文件需在完全解压状态下。3.根据权利要求2所述的方法,其特征在于,文件扩展名是文件的格式标识,试验报告文件是以扩展名为DOC或者DOCX的Word文档文件,或者是图片文件;数据文件是以扩展名为CSV、XLSX的文件;其中,所述图片文件的格式包括JPEG、PNG、TIFF。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述步骤1具体包括:步骤1

1:统计扩展名词频和文件夹大小;其中,所述扩展名词频为文件夹内文件后缀名的出现频率;步骤1

2:统计试验报告和数据文件平均大小,即对应扩展名的文件大小除以对应扩展名数量;若文件夹内没有对应扩展名文件,当扩展名数量为0时,直接确定文件平均容量大小为0;整个文件夹大小为所有容量之和。5.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:将文件大小的单位统一为字节B,文件夹创建时间转化为时间戳;对于文件大小和时间戳均采用最大最小归一化,即通过缩放将文件夹内的每一个属性特征的取值范围归一到[0,1],其计算公式为:公式中,x表示单个数据的取值,min和max分别是特征在所有样本上的最小值和最大值,x

是每一个属性特征缩放后的计算结果。6.根据权利要求1所述的方法,其特征在于,所述步骤3中的预处理具体包括:去除内容中的非文本部分、分词、停用词;对于非文本内容,直接用Python的正则表达式去除;对于分词,采用jieba库分词;对于停用词,利用停用词表去除停用词;所述停用词是与文件聚类无关的词语。7.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:采用改进的k

means++聚类算法,把每个试验的文件属性特征、文件扩展名词频特征和描述文本词频特征看成一个样本,其聚类的过程为:步骤4

1:随机选取一个样本作为第一个聚类中心c1;步骤4

2:接着计算每个样本与当前已有聚类中心之间的特征相似度,用Sim(x)表示;然后计算每个样本点被选为下一个聚类中心的概率P(x),最后选择最大概率值所对应的样本点作为下一个簇中心;P(x)的计算公式为:
公式中,X表示试验数据集,x表示从数据集X中随机选取的一个样本点;步骤4

3:重复步骤4

2,直到选择出k个聚类中心;步骤4

4:将k个聚类中心设为x1,x2,

x
k

【专利技术属性】
技术研发人员:杨春明张立滔张晖肖德成李波赵旭剑
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1