当前位置: 首页 > 专利查询>南京大学专利>正文

一种预测消毒副产物细胞毒性的方法技术

技术编号:34736851 阅读:29 留言:0更新日期:2022-08-31 18:27
本发明专利技术公开了一种预测消毒副产物细胞毒性的方法,借助化合物分子结构和理化性质,利用基于机器学习算法预测DBPs细胞毒性的方法。所述方法流程包括:收集DBPs的细胞毒性值,建立数据库;将所有DBPs转化为SMILES;计算所有DBPs样本的分子指纹,对样本数据进行标准化、归一化;基于多种机器学习算法构建毒性预测模型,选出最优模型;输入待测DBPs的SMILES表达式后,直接输出待测DBPs的预测细胞毒性数值。直接输出待测DBPs的预测细胞毒性数值。直接输出待测DBPs的预测细胞毒性数值。

【技术实现步骤摘要】
一种预测消毒副产物细胞毒性的方法


[0001]本专利技术属于环境风险评价
,具体涉及一种预测消毒副产物细胞毒性的方法。

技术介绍

[0002]饮用水消毒是一项重要的公共卫生措施,有助于灭活病原微生物,从而预防水传播疾病。然而,消毒剂(如氯、氯胺、二氧化氯等)可能会无意中与源水中的天然有机物和卤素发生反应,生成消毒副产物(disinfection by

products,DBPs)。许多DBPs具有细胞毒性、基因毒性、致突变性、致畸性或致癌性。这些对生物体不利影响的特性对环境风险评估及管控有重要指导意义。目前环境中的DBPs数量庞大且增速快,对全部DBPs开展实验耗费人力、物力,因此了解未开展实验的DBPs细胞毒性、在开展实验前对DBPs毒性进行预先初筛等都尤为重要。
[0003]细胞毒性是测定外源化合物或环境中其他因子对细胞结构和功能产生的毒性作用。一般细胞毒性实验都会进行细胞体外培养。细胞体外培养,是指细胞在体外适宜的条件下生长和增殖的培养技术。中国仓鼠卵巢细胞(Chinese hamster ovary cell,CHO)广泛应用于毒理学研究。半数最大效应浓度(concentration for 50%of maximal effect,EC
50
)是指能引起50%最大效应的浓度。用CHO细胞的EC
50
作为衡量细胞毒性的指标在研究中是非常常见的,对环境风险评估与管控有重要的参考意义,通过本专利的方法可以预测出DBPs准确的EC
50<br/>可以减少生物实验需要的大量人力、物力、财力和时间。
[0004]公开号为CN114171137的中国专利文献公开了一种基于机器学习预测化合物环境危害性的方法,以化合物的分子结构为基础,根据化合物结构与其PMT属性(持久性和迁移性及毒性)或vPvM属性(高持久性和高迁移性)之间的关系建立预测模型预测化合物的PMT属性或vPvM属性,包括以下步骤:(1)建立化合物环境危害性筛选标准;(2)在化合物数据库中抽取部分化合物作为样本,将这些导出样本的SMILES表达式作为样本数据;(3)基于机器学习算法构建预测模型,优化预测模型参数;(4)最后利用优化的预测模型中预测新分子是否具有环境危害性。公开号为CN110890137A的中国专利文献公开了一种化合物毒性预测模型建模方法,包括:(1)对化合物的毒性建立分类标签;(2)提供各候选建模化合物的分子描述符(3)提供各候选建模化合物的靶蛋白描述符;(4)提供各候选建模化合物的定量高通量筛选分析描述符;(5)构建并训练化合物毒性预测模型并可以进行预测。
[0005]但截至目前为止在DBPs的CHO细胞毒性预测领域缺乏相应的技术。

技术实现思路

[0006]1.要解决的问题
[0007]本专利技术的目的在于提供一种针对DBPs的CHO细胞毒性预测领域的预测消毒副产物细胞毒性的方法。
[0008]2.技术方案
[0009]为了解决上述问题,本专利技术所采用的技术方案如下:
[0010]一种预测消毒副产物细胞毒性的方法,至少包括以下步骤:
[0011](1)建立DBPs的细胞毒性数据库;
[0012](2)获取DBPs样本的SMILES;
[0013](3)计算DBPs样本的分子指纹,并对样本数据进行预处理;
[0014](4)基于机器学习算法构建毒性预测模型:保留同时具有全部描述符和细胞毒性值的样本构建数据集,计算模型评价相关参数,对模型进行筛选;
[0015](5)输入待测DBPs的SMILES表达式后自动计算待测DBPs的分子指纹,再输入至预测模型中,预测待测DBPs的细胞毒性数值;
[0016]其中,所述细胞毒性指CHO细胞的EC
50
值。
[0017]进一步地,所述的消毒副产物数据的来源于途径如下:
[0018]已发表的文献,示意性的所述文献可以是如JOURNAL OF ENVIRONMENT SCIENCES(环境科学学报)、WATER RESEARCH(水研究)上的相关文献;
[0019]广泛认可的公共数据库,示意性的所述公共数据库可以是如ToxCast、PubChem等;
[0020]标准化、科学化的生物实验,示意性的所述生物实验可以是如南京大学污染控制与资源化研究国家重点实验室的实验数据。
[0021]进一步地,步骤(2)中,获取DBPs的SMILES表达式的过程中,针对无法转换成SMILES的物质,进行排除。
[0022]进一步地,步骤(3)中,所述的分子指纹需要为MACCS的166位分子指纹;和/或,ECFP_4的1024位扩展连通性指纹;和/或,FCFP_4的1024位官能团类型指纹。
[0023]进一步地,步骤(3)中,所述的预处理方式包括标准化和归一化;
[0024]所述标准化是依照特征矩阵的列处理数据,将样本的特征值转换到同一量纲下;
[0025]所述归一化是依照特征矩阵的行处理数据,将数据映射到指定的范围。
[0026]进一步地,步骤(4)中,所述的机器学习算法选自随机森林算法、支持向量机算法、朴素贝叶斯算法、人工神经网络算法。
[0027]进一步地,步骤(4)中,将所述样本构建的数据集划分为训练集和测试集;
[0028]利用训练集训练所述的预测模型;
[0029]利用测试集评价所述预测模型的优度,优化所述预测模型的参数。
[0030]进一步地,训练集和测试集按照(8~7):(2~3)的比例进行划分。示意性的如按照8:2或者7:3的比例进行划分。
[0031]进一步地,步骤(4)中,通过计算回归系数和均方误差来对模型进行筛选。
[0032]进一步地,选取R2最接近1和MSE最小的模型为最优模型。
[0033]进一步地,MSE的计算公式为:
[0034]其中,n为样本数,Y
i
为样本的真实值,为样本的预测值。
[0035]3.有益效果
[0036]相比于现有技术,本专利技术提供的预测消毒副产物细胞毒性的方法:
[0037]1)填补了当前技术在DBPs的CHO细胞毒性预测领域内的空白。
[0038]2)基于机器学习的方法进行回归,可以进行定量预测,即预测出具体毒性数值,准确度较传统回归方法高。
[0039]有别于传统已知的基于机器学习的方法进行分类,只能进行定性预测,如化合物有毒性或无毒性。
[0040]3)可省去大量繁复生物实验,只需输入待测物质的SMILES表达式,就可以直接输出细胞毒性的预测值,具有批量、快速、精准的优点,节省人力、时间、经济成本。可用于缩小消毒副产物的毒性筛选范围,为科学研究工作和饮用水的风险评价和管控提供指导。
附图说明
[0041]图1是本专利技术基于机器学习预测消毒副产物细胞毒性的方法的流程图;
[0042本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测消毒副产物细胞毒性的方法,其特征在于,至少包括以下步骤:(1)建立DBPs的细胞毒性数据库;(2)获取DBPs样本的SMILES;(3)计算DBPs样本的分子指纹,并对样本数据进行预处理;(4)基于机器学习算法构建毒性预测模型:保留同时具有全部描述符和细胞毒性值的样本构建数据集,计算模型评价相关参数,对模型进行筛选;(5)输入待测DBPs的SMILES表达式后自动计算待测DBPs的分子指纹,再输入至预测模型中,预测待测DBPs的细胞毒性数值;其中,所述细胞毒性指CHO细胞的EC
50
值。2.根据权利要求1所述的预测消毒副产物细胞毒性的方法,其特征在于,步骤(2)中,获取DBPs的SMILES表达式的过程中,针对无法转换成SMILES的物质,进行排除。3.根据权利要求1所述的预测消毒副产物细胞毒性的方法,其特征在于,步骤(3)中,所述分子指纹为:MACCS的166位分子指纹,和/或ECFP_4的1024位扩展连通性指纹,和/或FCFP_4的1024位官能团类型指纹。4.根据权利要求3所述的预测消毒副产物细胞毒性的方法,其特征在于,步骤(3)中,所述的预处理方式包括标准化和归一化;所述标准化是依照特征矩阵的...

【专利技术属性】
技术研发人员:潘旸陈雪瑶任家丰罗家怡王乐怡韩亮亮汤萌萌周庆双陈冬施鹏李爱民
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1