一种高通量实验数据处理方法及装置制造方法及图纸

技术编号:39587522 阅读:7 留言:0更新日期:2023-12-03 19:39
本发明专利技术公开涉及一种高通量实验数据处理方法及装置,该方法包括:根据预设的表头规范化规则和整列去首尾空格规则,建立条件表;根据预设的表头规范化规则

【技术实现步骤摘要】
一种高通量实验数据处理方法及装置


[0001]本专利技术公开涉及实验数据处理
,具体地,涉及一种高通量实验数据处理方法及装置


技术介绍

[0002]高通量实验具有许多优点,可以用于发现新材料,解决新领域的问题,以及提高药物研发的效率,减少实验时间

此外,高通量实验还可以实现高精度的数据收集,以及更广泛的化学反应探索

因此,在现代化学研究中,高通量实验
(High Throughput Experimentation

HTE)
逐渐成为一个日益受到重视的领域

[0003]但是,高通量实验结束后产生了大量
Excel
数据,这些数据需要进行整理和分析才能得到有意义的结果,需要耗费大量的时间和精力

传统的人工处理方法效率低下,容易出现操作失误,导致数据的不准确性和不完整性

且随着高通量实验的不断开设,实验数据的处理会成为需要周期性重复的工作,如何鉴别增量数据

去除重复数据成为人工处理方法的难题

[0004]高通量实验数据分散在多个
Excel
文件的多个子表上

常规整理方法是使用内置函数

数据透视表
(PivotTable)
或自定义宏,这些方法的缺点是要求原始数据表必须将数据放在完全一样的位置或使用完全相同的表头以保证所有新的数据表可以正常复用之前的处理过程

这些常规的整理方法灵活性差,例如一旦表头不规范
(
例如大小写混用
)
或需要对单元格内容进行进一步校验,就难以成功处理

此外,
Excel
函数和宏操作逻辑复杂,一旦出错实验人员也无法定位错误来源,导致处理效率进一步降低

[0005]因此,本领域人员亟需寻找一种新的技术方案来解决上述的问题


技术实现思路

[0006]为克服相关技术中存在的问题,本专利技术公开提供一种高通量实验数据处理方法及装置

[0007]根据本专利技术公开实施例的第一方面,提供一种高通量实验数据处理方法,所述方法包括:
[0008]根据预设的表头规范化规则和整列去首尾空格规则,将条件组合标识作为条件组合唯一索引读取高通量实验原始数据表中的条件投料信息,建立条件表;
[0009]根据预设的表头规范化规则

整列去首尾空格规则

分子结构列规范化规则以及
CAS
号列校验规则,将微孔板的板号标识作为板号唯一索引读取高通量实验原始数据表中与每个微孔板的板号标识对应的底物投料信息,建立底物产物表;
[0010]根据预设的表头规范化规则

整列去首尾空格规则和反应结果列校验规则,将反应标识作为反应唯一索引读取高通量实验原始数据表中的反应结果信息,建立项目表;
[0011]从所述反应唯一索引中分离出条件组合唯一索引和板号唯一索引,根据所述条件组合唯一索引从所述反应表中获取条件投料信息,将所述条件投料信息和对应的条件组合
汇入所述项目表,获取第一目标项目表;
[0012]根据所述板号唯一索引从所述底物产物表中获取底物投料信息,将所述板号和对应的底物产物表汇入所述第一目标项目表,获取第二目标项目表,以完成所述高通量实验原始数据表的数据处理过程

[0013]可选的,所述预设的表头规范化规则包括:
[0014]通过
strip
函数去除表头中的首尾空格;
[0015]通过
lower
函数将表头中的大写英文字母替换为小写英文字母;
[0016]通过
replace
函数将表头中的空格替换为下划线

[0017]可选的,所述预设的分子结构列规范化规则包括:
[0018]使用
RDKit
对所述分子结构的线性表示是否规范进行校验,确定校验的分子结构列;
[0019]对通过校验的分子结构列进行规范化

[0020]可选的,所述预设的反应结果列校验规则包括:
[0021]将超过对应指标的取值范围的反应结果数据确定为异常测量值,并将所述异常测量值置空;
[0022]将所述反应结果数据中以百分制表示的测量值转换为小数形式

[0023]可选的,在所述根据预设的表头规范化规则和整列去首尾空格规则之前,所述方法还包括:
[0024]在配置文件中提供条件表

底物产物表以及项目表的路径;
[0025]确定表头的行号以及所述高通量实验原始数据表的数据批次标识符

[0026]可选的,在所述将所述板号和对应的底物产物表汇入所述项目表,获取第二目标项目表之后,所述方法还包括:
[0027]将所述第二目标项目表

启动配置文件以及程序运行日志导出至一个文件夹中,其中,所述配置文件中包括条件表

底物产物表以及项目表的路径

[0028]可选的,所述根据预设的表头规范化规则

整列去首尾空格规则和反应结果列校验规则,将反应标识作为反应唯一索引读取高通量实验原始数据表中的反应结果信息,建立项目表,包括:
[0029]将反应标识作为反应唯一索引读取所述高通量实验原始数据表,根据预设的表头规范化规则和整列去首尾空格规则进行处理;
[0030]根据配置文件中的数据批次标识符筛选出对应行号;
[0031]根据预设的反应结果列校验规则读取所述高通量实验原始数据表中的反应结果信息,建立项目表

[0032]根据本专利技术公开实施例的第二方面,提供一种高通量实验数据处理装置,所述装置包括:
[0033]条件表建立模块,根据预设的表头规范化规则和整列去首尾空格规则,将条件组合标识作为条件组合唯一索引读取高通量实验原始数据表中的条件投料信息,建立条件表;
[0034]底物产物表建立模块,与所述条件表建立模块相连,根据预设的表头规范化规则

整列去首尾空格规则

分子结构列规范化规则以及
CAS
号列校验规则,将微孔板的板号标识
作为板号唯一索引读取高通量实验原始数据表中与每个微孔板的板号标识对应的底物投料信息,建立底物产物表;
[0035]项目表建立模块,与所述底物产物表建立模块相连,根据预设的表头规范化规则

整列去首尾空格规则和反应结果列校验规则,将反应标识作为反应唯一索引读取高通量实验原始数据表中的反应结果信息,建立项目表;
[0036]第一目标项目表建立模块,与所述项目表建立模块相连,从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种高通量实验数据处理方法,其特征在于,所述方法包括:根据预设的表头规范化规则和整列去首尾空格规则,将条件组合标识作为条件组合唯一索引读取高通量实验原始数据表中的条件投料信息,建立条件表;根据预设的表头规范化规则

整列去首尾空格规则

分子结构列规范化规则以及
CAS
号列校验规则,将微孔板的板号标识作为板号唯一索引读取高通量实验原始数据表中与每个微孔板的板号标识对应的底物投料信息,建立底物产物表;根据预设的表头规范化规则

整列去首尾空格规则和反应结果列校验规则,将反应标识作为反应唯一索引读取高通量实验原始数据表中的反应结果信息,建立项目表;从所述反应唯一索引中分离出条件组合唯一索引和板号唯一索引,根据所述条件组合唯一索引从所述反应表中获取条件投料信息,将所述条件投料信息和对应的条件组合汇入所述项目表,获取第一目标项目表;根据所述板号唯一索引从所述底物产物表中获取底物投料信息,将所述板号和对应的底物产物表汇入所述第一目标项目表,获取第二目标项目表,以完成所述高通量实验原始数据表的数据处理过程
。2.
根据权利要求1所述的高通量实验数据处理方法,其特征在于,所述预设的表头规范化规则包括:通过
strip
函数去除表头中的首尾空格;通过
lower
函数将表头中的大写英文字母替换为小写英文字母;通过
replace
函数将表头中的空格替换为下划线
。3.
根据权利要求1所述的高通量实验数据处理方法,其特征在于,所述预设的分子结构列规范化规则包括:使用
RDKit
对所述分子结构的线性表示是否规范进行校验,确定校验的分子结构列;对通过校验的分子结构列进行规范化
。4.
根据权利要求1所述的高通量实验数据处理方法,其特征在于,所述预设的反应结果列校验规则包括:将超过对应指标的取值范围的反应结果数据确定为异常测量值,并将所述异常测量值置空;将所述反应结果数据中以百分制表示的测量值转换为小数形式
。5.
根据权利要求1所述的高通量实验数据处理方法,其特征在于,在所述根据预设的表头规范化规则和整列去首尾空格规则之前,所述方法还包括:在配置文件中提供条件表

底物产物表以及项目表的路径;确定表头的行号以及所述高通量实验原始数据表的数据批次标识符
。6.
根据权利要求5所述的高通量实验数据处理方法,其特征在于,在所述将所述板号和对应的底物产物表汇入所述项目表,获取第二目标项目表之后,所述方法还包括:将所述第二目标项目表

启动配置文件以及程序运行日志导出至一个文件夹中,其中,所述配置文件中包括条件表

底物产物表以及项目表的路径
。7.

【专利技术属性】
技术研发人员:徐春秋
申请(专利权)人:广州标智未来科学技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1