数据清洗方法及装置、存储介质及电子设备制造方法及图纸

技术编号:36016918 阅读:10 留言:0更新日期:2022-12-21 10:08
本发明专利技术提供一种数据清洗方法及装置、存储介质及电子设备,该方法包括:当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前原子映射信息中包含的第一原子映射数据,将所述化学反应对应的反应字符串输入预先建立的反应映射模型,获得第二原子映射数据;确定第一数量和第二数量,并基于第一数量和第二数量,判断第一原子映射数据对应的原子映射关系是否正确;若第一原子映射数据对应的原子映射关系不正确,则将原子映射信息中包含的第一原子映射数据替换为第二原子映射数据,以对原子映射信息进行数据清洗。应用本发明专利技术的方法,可对原子映射信息进行验证及修正,提高原子映射信息的准确度。原子映射信息的准确度。原子映射信息的准确度。

【技术实现步骤摘要】
数据清洗方法及装置、存储介质及电子设备


[0001]本专利技术涉及数据处理
,特别是涉及一种数据清洗方法及装置、存储介质及电子设备。

技术介绍

[0002]随着计算机技术的发展,化学信息技术在化学领域逐渐得到广泛应用。在化学信息技术中,化学反应的原子映射信息是建模及化合物性质预测的基础信息之一,原子映射指的是对于化学反应的反应物的各个原子与其生成物的各个原子之间构建一一映射关系。
[0003]在化学信息技术中,通常基于简化分子线性输入规范(Simplified MolecularInput Line Entry Specification,SMILES)描述化学结构,化学反应的原子映射信息通常也是对该化学反应的SMILES表达式进行原子映射的标注处理后得到的。
[0004]目前,通常是基于预设的标注规则对化学反应的SMILES表达式进行标注,得到化学反应的原子映射信息。而预设的标注规则通常是基于人类社会原有经验的积累得到的,随着人类社会积累的化学反应数量越来越多,基于预设标注规则得到的原子映射,难以准确识别所有化学反应的反应物与生成物之间各原子的对应关系,使得现有方法得到的化学反应的原子映射信息的准确度较低,继而给后续的处理工作造成极大的不良影响。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种数据清洗方法,以解决化学反应的原子映射信息的准确度较低,给后续处理工作造成不良影响的问题。
[0006]本专利技术实施例还提供了一种数据清洗装置,用以保证上述方法实际中的实现及应用。
[0007]为实现上述目的,本专利技术实施例提供如下技术方案:
[0008]一种数据清洗方法,包括:
[0009]当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;
[0010]将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;
[0011]确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;
[0012]基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;
[0013]若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据
清洗。
[0014]上述的方法,可选的,所述反应映射模型的建立过程,包括:
[0015]确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;
[0016]基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。
[0017]上述的方法,可选的,所述确定第一数量,包括:
[0018]确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息;每个所述反应物原子对应的连接信息包括,与该反应物原子相连接的每个反应物原子的信息;
[0019]确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息;每个所述生成物原子对应的连接信息包括,与该生成物原子相连接的每个生成物原子的信息;
[0020]在各个所述生成物原子中,确定每个所述反应物原子对应的生成物原子;
[0021]将每个所述反应物原子对应的连接信息与其对应的生成物原子所对应的连接信息进行比较,以确定每个所述生成物原子对应的化学键生成量及化学键断裂量;
[0022]将各个所述生成物原子对应的化学键生成量及化学键断裂量进行求和运算,并将计算结果确定为所述第一数量。
[0023]上述的方法,可选的,所述确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息,包括:
[0024]调用预设的化学信息学工具对所述第一原子映射数据进行解析,获得所述第一原子映射数据对应的解析数据;
[0025]从所述解析数据提取每个所述反应物原子对应的标识信息,每个所述反应物原子对应的标识信息包括该反应物原子的标识以及与该反应物原子相连接的每个反应物原子的标识;
[0026]将提取到的每个所述反应物原子对应的标识信息确定为每个所述反应物原子对应的连接信息。
[0027]上述的方法,可选的,所述判断所述第一原子映射数据对应的原子映射关系是否正确,包括:
[0028]判断所述第二数量是否小于所述第一数量;
[0029]若所述第二数量小于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系不正确。
[0030]上述的方法,可选的,还包括:
[0031]若所述第二数量大于或等于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系正确。
[0032]上述的方法,可选的,还包括:
[0033]若所述第一原子映射数据对应的原子映射关系正确,则在所述原子映射信息中保留所述第一原子映射数据。
[0034]一种数据清洗装置,包括:
[0035]第一获取单元,用于当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,
基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;
[0036]第二获取单元,用于将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;
[0037]第一确定单元,用于确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;
[0038]判断单元,用于基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;
[0039]清洗单元,用于若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。
[0040]上述的装置,可选的,还包括:
[0041]第二确定单元,用于确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;
[0042]训练单元,用于基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。
[0043]上述的装置,可选的,所述第一确定单元,包括:
[0044]第一确定子单元,用于确定所述第一原子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。2.根据权利要求1所述的方法,其特征在于,所述反应映射模型的建立过程,包括:确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。3.根据权利要求1所述的方法,其特征在于,所述确定第一数量,包括:确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息;每个所述反应物原子对应的连接信息包括,与该反应物原子相连接的每个反应物原子的信息;确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息;每个所述生成物原子对应的连接信息包括,与该生成物原子相连接的每个生成物原子的信息;在各个所述生成物原子中,确定每个所述反应物原子对应的生成物原子;将每个所述反应物原子对应的连接信息与其对应的生成物原子所对应的连接信息进行比较,以确定每个所述生成物原子对应的化学键生成量及化学键断裂量;将各个所述生成物原子对应的化学键生成量及化学键断裂量进行求和运算,并将计算结果确定为所述第一数量。4.根据权利要求3所述的方法,其特征在于,所述确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息,包括:调用预设的化学信息学工具对所述第一原子映射数据进行解析,获得所述第一原子映射数据对应的解析数据;从所述解析数据提取每个所述...

【专利技术属性】
技术研发人员:夏宁王正权
申请(专利权)人:武汉智化科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1