System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种实验知识库构建方法及装置,属于数据处理领域。
技术介绍
1、实验知识库是指收集和整理实验操作流程、仪器设备的使用方法以及实验数据分析等相关知识的数据库。实验知识库通常会包括以下内容:实验原理和方法:对该实验的基本组成、原理和操作方法进行描述,帮助使用者全面了解实验;实验步骤和流程:详细介绍该实验的操作步骤、注意事项、安全规范等,确保实验的操作正确、准确和安全;仪器设备与试剂介绍:详细说明所需的仪器设备和试剂的使用方法及特点,帮助使用者更好地选用和使用仪器设备及试剂;数据处理和分析方法:介绍该实验的数据处理和分析方法,帮助使用者理解实验结果并从中获取有用的信息。
2、目前实验知识库通常通过收集实验数据和文献资料进行构建,由于实验数据来源受限,会使得实验数据和文献资料的收集过程是非常耗时和昂贵的,因此,很难保证数据的质量和完整性,同时由于不同数据来源的格式不同,因此整合这些数据变得更加困难,数据质量难以保证且对专业知识要求高,缺乏统一的数据格式。
技术实现思路
1、本专利技术所要解决的技术问题是克服现有技术的缺陷,提供一种实验知识库构建方法及装置。
2、为解决上述技术问题,本专利技术提供一种实验知识库构建方法,包括以下步骤:
3、获取预先设定实验的主题和目标,根据所述实验的主题和目标收集实验数据,得到数据集;
4、对所述数据集进行处理和整合,得到整合后的实验数据;
5、基于所述整合后的实验数据,采用本体论构建
6、进一步的,还包括:
7、在采用本体论构建实验知识库后,基于知识推理引擎提取所述实验知识库中的实验数据之间的关联和规律。
8、进一步的,还包括:
9、在采用本体论构建实验知识库后,对构建的实验知识库进行知识管理和维护。
10、进一步的,所述对所述数据集进行处理和整合,得到整合后的实验数据,包括:
11、将所述数据集中的实验数据进行模式转换,得到统一格式的实验数据;
12、将得到的统一格式实验数据进行数据清洗;
13、对清洗后的实验数据进行数据整合,得到整合后的实验数据。
14、进一步的,所述将得到的统一格式实验数据进行数据清洗包括以下步骤:
15、检测实验数据中的重复数据并将重复数据删除;
16、采用改进k-means聚类方法识别实验数据中的异常数据并进行处理,将处理后的异常数据作为缺失值;
17、基于密度的孤立点检测改进算法对实验数据中的孤立点数据进行检测并处理,将处理后的孤立点数据作为缺失值;
18、检测实验数据中的缺失值,并基于误差反馈的异常数据组合式插补方法对缺失值进行数据填补。
19、进一步的,所述采用改进k-means聚类方法识别实验数据中的异常数据并进行处理,将处理后的异常数据作为缺失值,包括:
20、s2221、对聚类中心进行初始化,并随机选择k个对象作为各簇的中心;
21、s2222、根据剩余的对象与初始簇中心的距离,将剩余的对象归到距离最近的簇中;
22、s2223、选取每个簇的所有对象并对它们的特征向量进行平均值计算,将计算得到的每个簇的平均向量作为新的聚类中心;
23、s2224、反复迭代步骤s2222-s2223,直至预设的准则函数收敛;
24、s2225、对于不同的聚类数所对应的聚类分组结果,分别计算db指标;
25、s2226、将db值最小的聚类数作为最优聚类数k,并得到相应的聚类结果;
26、s2227、根据每个聚类中的对象数目所占总数据比例,将实验数据中的异常数据类识别出来,作为缺失值。
27、进一步的,所述准则函数的计算公式为:
28、
29、式中,sse表示平方误差总和;k表示聚类数目;h表示欧几里得空间中的点;mi表示簇ci的中心;ci表示第i个簇。
30、进一步的,基于密度的孤立点检测改进算法对实验数据中的孤立点数据进行检测并处理,将处理后的孤立点数据作为缺失值,包括:
31、找出实验数据中的最大值和最小值,对实验数据进行标准化处理;
32、计算标准化处理后的实验数据中每个数据点与其他数据点之间的欧几里得距离;
33、对每个数据点到其他数据点的欧几里得距离进行升序排序,选出前n位的点,n表示近邻数目;
34、对每个数据点的进行可达密度计算;
35、根据每个数据点的可达密度计算每个数据点的局部离群点因子;
36、将各点的局部离群点因子进行排序,并根据预设的阈值进行判定,所述判定包括:若数据点的局部离群点因子大于预设的阈值,则将该数据点定义为孤立点,并将孤立点数据进行删除,并作为缺失值,否则保留该数据点。
37、进一步的,检测实验数据中的缺失值,并基于误差反馈的异常数据组合式插补方法对缺失值进行数据填补,包括:
38、按照预设比例选取实验数据,将其作为样本数据集,并对样本数据集中缺失值对应的原始值记作参数序列w0;
39、基于期望最大化插补法及回归插补法对样本数据集中的缺失值进行插补,分别得到相应的插补序列w1和w2;
40、对得到的插补序列w1和w2进行误差分析,并采用平均相对误差指标进行评估,分别计算插补序列w1和w2的mape值;
41、根据计算得到的插补序列w1和w2的mape值,分别计算其对应的插补权重;
42、基于所述插补权重,对与样本数据集特征相似的实验数据进行插补,得到插补序列
43、进一步的,所述基于所述整合后的实验数据,采用本体论构建实验知识库,包括:
44、确定实验知识库的应用目标和范围;
45、根据所述实验知识库的应用目标和范围采用自底向上和自顶向下相结合的方法,确定类和类间的层次结构,构建实验知识库的本体结构,设置本体类和本体属性,设置本体类的名词、术语及定义,得到本体词汇表;
46、根据所述本体词汇表中的定义和本体结构,创建本体实例,包括实验对象、实验过程和实验数据;
47、根据实验数据的特点,确定实验数据的格式和结构;
48、将实验数据映射到本体结构中,为实验数据分配本体类和本体属性,建立实验数据之间的关系;
49、根据实验对象、实验过程和实验数据之间的关系,建立本体实例之间的关系;
50、利用protégé软件对本体结构进行可视化构建,编辑实验数据本体的层次结构、属性及其约束,添加类的实例,并将实验数据本体转换为owl格式的形式化代码,完成实验知识库的构建。
51、进一步的,所述基于知识推理引擎提取所述实验知识库中的实验数据之间的关联和规律,包括:
52、根据实验数据的特点和分析目标,设置推理规则和查询语句本文档来自技高网...
【技术保护点】
1.一种实验知识库构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的实验知识库构建方法,其特征在于,还包括:
3.根据权利要求1所述的实验知识库构建方法,其特征在于,还包括:
4.根据权利要求1所述的实验知识库构建方法,其特征在于,所述对所述数据集进行处理和整合,得到整合后的实验数据,包括:
5.根据权利要求4所述的实验知识库构建方法,其特征在于,所述将得到的统一格式实验数据进行数据清洗包括以下步骤:
6.根据权利要求5所述的实验知识库构建方法,其特征在于,所述采用改进K-Means聚类方法识别实验数据中的异常数据并进行处理,将处理后的异常数据作为缺失值,包括:
7.根据权利要求6所述的实验知识库构建方法,其特征在于,所述准则函数的计算公式为:
8.根据权利要求5所述的实验知识库构建方法,其特征在于,基于密度的孤立点检测改进算法对实验数据中的孤立点数据进行检测并处理,将处理后的孤立点数据作为缺失值,包括:
9.根据权利要求5所述的实验知识库构建方法,其特征在于,检测实验数据
10.根据权利要求1所述的实验知识库构建方法,其特征在于,所述基于所述整合后的实验数据,采用本体论构建实验知识库,包括:
11.根据权利要求2所述的实验知识库构建方法,其特征在于,所述基于知识推理引擎提取所述实验知识库中的实验数据之间的关联和规律,包括:
12.根据权利要求3所述的实验知识库构建方法,其特征在于,所述对构建的实验知识库进行知识管理和维护包括以下步骤:
13.一种实验知识库构建装置,其特征在于,包括:
...【技术特征摘要】
1.一种实验知识库构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的实验知识库构建方法,其特征在于,还包括:
3.根据权利要求1所述的实验知识库构建方法,其特征在于,还包括:
4.根据权利要求1所述的实验知识库构建方法,其特征在于,所述对所述数据集进行处理和整合,得到整合后的实验数据,包括:
5.根据权利要求4所述的实验知识库构建方法,其特征在于,所述将得到的统一格式实验数据进行数据清洗包括以下步骤:
6.根据权利要求5所述的实验知识库构建方法,其特征在于,所述采用改进k-means聚类方法识别实验数据中的异常数据并进行处理,将处理后的异常数据作为缺失值,包括:
7.根据权利要求6所述的实验知识库构建方法,其特征在于,所述准则函数的计算公式为:
8.根据权利要求5所...
【专利技术属性】
技术研发人员:方敏,孙少恒,董栓牢,杨云静,
申请(专利权)人:江苏徐工工程机械研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。