System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种甲状腺系统干扰物优先级排序方法和系统技术方案_技高网

一种甲状腺系统干扰物优先级排序方法和系统技术方案

技术编号:41300900 阅读:5 留言:0更新日期:2024-05-13 14:48
本发明专利技术公开了一种甲状腺系统干扰物优先级排序方法和系统。所述方法先建立已有的物质对8种甲状腺系统靶标干扰效应试验数据库,并利用试验数据库中数据基于机器学习算法分别构建8种甲状腺系统靶标干扰效应二元分类预测模型,利用预测模型对目标物质缺失试验数据的靶标的干扰效应数据进行预测,获取目标物质对无干扰效应试验数据的靶标的干扰效应预测数据,二者整合即为目标化合物对8种甲状腺系统靶标的干扰效应数据,然后根据干扰效应阳性数据个数,判定目标化合物对甲状腺系统干扰效应的优先等级。本发明专利技术的优先级排序方法流程清晰,方法可扩展性较好,方法易于程序化,适用于对未知化学品判定其潜在甲状腺系统干扰效应优先等级。

【技术实现步骤摘要】

本专利技术涉及一种甲状腺系统干扰物优先级排序方法和系统,属于内分泌干扰物筛选策略。


技术介绍

1、筛选优先污染物是指结合环境与健康危害以及环境暴露情况,从数以万计的在产在用化学物质中选出潜在环境风险较大的污染物,纳入优先开展环境风险评估的范围。当前国内外关注的优先污染物包括内分泌干扰物、持久性、生物累积性、毒性(pbts)类、持久性、迁移性、毒性(pmts)类、持久性有机污染物(pops)等种类。根据经验,实施化学污染物治理需要相对完整的环境风险评估与管控技术方法、化学物质危害数据库、计算毒理模型软件等技术工具的支撑。但是现阶段,化学物质危害信息严重缺失,计算毒理发展缓慢,已成为化学污染物治理的重要制约因素。因此,发展内分泌干扰效应优先级设定工具对于支撑实施edcs类新污染物管控具有重要意义。

2、研究表明,edcs对甲状腺等内分泌系统干扰作用模式包括:干扰内源激素调控相关靶标、内分泌内源激素合成相关靶标、内源激素体内转运蛋白、内源激素受体、内源激素转化相关靶标等。理论上通过判断目标物质是否能干扰上述系统内分泌靶标的方式,可确定目标物质是否具有内分泌干扰效应,或根据内分泌靶标干扰阳性效应的数量的差异,可以实现物质不同优先等级设定。目前,文献(garcia de lomana m,et al.in silicomodels to predict the perturbation of molecular initiating events related tothyroid hormone homeostasis.chem res toxicol.2021feb 15;34(2):396-411.)、专利(cn105893759b、cn110146695b)、软著(2021sr1567339)等,公开了可预测有机化学品对甲状腺系统靶标潜在干扰效应的预测模型、软件工具。但是,关于基于有机化学品对甲状腺系统靶标潜在干扰效应数据,进而进行目标化合物甲状腺系统干扰效应优先等级设定的方法还未见报道。


技术实现思路

1、本专利技术的目的在于提供一种甲状腺系统干扰物优先级排序方法,该方法基于试验或预测的甲状腺系统靶标干扰效应数据,进行甲状腺系统干扰物优先级排序。

2、实现本专利技术目的的技术方案如下:

3、一种甲状腺系统干扰物优先级排序方法,包括以下步骤:

4、(1)构建8种甲状腺系统靶标干扰效应的试验数据库:收集已有的物质对甲状腺素调控系统靶标、甲状腺合成系统靶标、甲状腺转运系统靶标、甲状腺转化系统靶标、甲状腺受体靶标干扰效应的试验数据并构建数据库,所述的甲状腺素调控系统靶标包括促甲状腺素释放激素受体(trhr)和促甲状腺激素受体(tshr),所述的甲状腺合成系统靶标包括钠/碘转运体(nis)和甲状腺素过氧化物酶(tpo),所述的甲状腺转运系统靶标为运甲状腺素蛋白(ttr),所述的甲状腺转化系统靶标为脱碘酶(dio),所述的甲状腺受体包括甲状腺素alpha受体(trα)和甲状腺素beta受体(trβ);

5、(2)构建甲状腺系统靶标干扰效应二元分类预测模型:利用步骤(1)收集的8种甲状腺系统靶标干扰效应的试验数据基于机器学习算法分别构建8种甲状腺系统靶标预测模型,其中运甲状腺素蛋白、甲状腺素alpha受体和甲状腺素beta受体的最优模型为基于k-最邻近算法的模型,促甲状腺素释放激素受体、促甲状腺激素受体、钠/碘转运体、甲状腺素过氧化物酶、脱碘酶的最优模型为基于决策树算法的模型;

6、(3)获取目标物质的干扰效应数据:基于步骤(1)的试验数据库,获得目标物质对已有干扰效应试验数据的靶标的干扰效应试验数据,对于无干扰效应试验数据的靶标,利用步骤(2)的相关靶标的预测模型,进行缺失试验数据的靶标的干扰效应数据的预测,得到目标物质对无干扰效应试验数据的靶标的干扰效应预测数据,将目标物质的干扰效应试验数据和干扰效应预测数据整合,得到目标物质对8种甲状腺系统靶标的干扰效应数据;

7、(4)优先级的排序:若目标物质对6-8个甲状腺系统靶标干扰效应数据为阳性,则该物质设定为高优先级甲状腺系统干扰物;若目标物质对3-5个甲状腺系统靶标干扰效应数据为阳性,则该物质设定为中等优先级甲状腺系统干扰物;若目标物质对0-2个甲状腺系统靶标干扰效应数据为阳性,则该物质设定为低优先级甲状腺系统干扰物。

8、进一步地,步骤(1)中,试验数据采集于学术论文、权威软件、数据库。

9、进一步地,步骤(2)中,机器学习算法选自k-最邻近算法、逻辑回归算法、支持向量机算法、决策树算法或随机森林算法。

10、进一步地,步骤(2)中,构建甲状腺系统靶标干扰效应二元分类预测模型的具体方法如下:采用padelpy工具计算步骤(1)中已有甲状腺系统靶标干扰效应试验数据的化学物质的1d和2d分子结构描述符、pubchem分子指纹描述符,然后使用python程序中scikit-learn模块所含的机器学习算法分别构建甲状腺系统8个靶标的干扰效应二元分类模型,建模时,将各靶标原始数据集随机拆分为训练集和验证集,采用训练集和验证集的敏感性(sn)、特异性(sp)、预测准确度(q)、马修斯相关系数(mcc)、受试者工作特征曲线(roc曲线)及roc曲线下的面积(auc)表征分类性能,使用基于欧几里德距离的方法表征分类模型应用域。

11、进一步地,步骤(2)中,采用基于pubchem分子指纹描述符计算的tanimoto相似性指数(ts)来评估预测模型可靠性,计算公式如下:

12、

13、其中,ax-i和bx-i分别是验证集化合物a和训练集化合物b中第i个分子结构描述符,若化合物ats≥90%,表示化合物a与对应模型训练集中至少一个化合物的相似性大于等于90%,意味着预测结果具有“高可靠性”;若化合物ats介于75%~90%,则表示化合物a与对应模型训练集中至少一个化合物的相似性在75%~90%之间,意味着预测结果具有“中可靠性”;若化合物ats≤75%,则表示化合物a与对应模型训练集化合物的相似性均小于75%,意味着预测结果具有“低可靠性”。

14、一种甲状腺系统干扰物优先级排序系统,包括:

15、目标物质输入模块,用于输入目标物质,如果输入目标物质信息有效,则调用目标物质干扰效应数据的获取模块;

16、目标物质干扰效应数据的获取模块,用于获取目标物质对8种甲状腺系统靶标的干扰效应数据,包括8种甲状腺系统靶标干扰效应的试验数据库和甲状腺系统靶标干扰效应二元分类预测模型,

17、所述的8种甲状腺系统靶标干扰效应的试验数据库储存已有的物质对甲状腺素调控系统靶标、甲状腺合成系统靶标、甲状腺转运系统靶标、甲状腺转化系统靶标、甲状腺受体靶标干扰效应的试验数据,根据输入的目标物质,获取数据库中已有的目标物质对甲状腺系统靶标干扰效应的试验数据,

18、所述的甲状腺系统靶标干扰效应二元分类预测模型对目标本文档来自技高网...

【技术保护点】

1.一种甲状腺系统干扰物优先级排序方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的甲状腺系统干扰物优先级排序方法,其特征在于,步骤(1)中,试验数据采集于学术论文、权威软件、数据库。

3.根据权利要求1所述的甲状腺系统干扰物优先级排序方法,其特征在于,步骤(2)中,机器学习算法选自k-最邻近算法、逻辑回归算法、支持向量机算法、决策树算法或随机森林算法。

4.根据权利要求1所述的甲状腺系统干扰物优先级排序方法,其特征在于,步骤(2)中,构建甲状腺系统靶标干扰效应二元分类预测模型的具体方法如下:采用padelpy工具计算步骤(1)中已有甲状腺系统靶标干扰效应试验数据的化学物质的1D和2D分子结构描述符、Pubchem分子指纹描述符,然后使用Python程序中scikit-learn模块所含的机器学习算法分别构建甲状腺系统8个靶标的干扰效应二元分类模型,建模时,将各靶标原始数据集随机拆分为训练集和验证集,采用训练集和验证集的敏感性、特异性、预测准确度、马修斯相关系数、受试者工作特征曲线及ROC曲线下的面积表征分类性能,使用基于欧几里德距离的方法表征分类模型应用域。

5.根据权利要求1所述的甲状腺系统干扰物优先级排序方法,其特征在于,步骤(2)中,采用基于Pubchem分子指纹描述符计算的Tanimoto相似性指数Ts来评估预测模型可靠性,计算公式如下:

6.一种甲状腺系统干扰物优先级排序系统,其特征在于,包括:

7.根据权利要求6所述的甲状腺系统干扰物优先级排序系统,其特征在于,目标物质的输入信息为SMILES码、CSA号或结构文件,输入模式为单一物质输入模式或批量物质输入模式。

...

【技术特征摘要】

1.一种甲状腺系统干扰物优先级排序方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的甲状腺系统干扰物优先级排序方法,其特征在于,步骤(1)中,试验数据采集于学术论文、权威软件、数据库。

3.根据权利要求1所述的甲状腺系统干扰物优先级排序方法,其特征在于,步骤(2)中,机器学习算法选自k-最邻近算法、逻辑回归算法、支持向量机算法、决策树算法或随机森林算法。

4.根据权利要求1所述的甲状腺系统干扰物优先级排序方法,其特征在于,步骤(2)中,构建甲状腺系统靶标干扰效应二元分类预测模型的具体方法如下:采用padelpy工具计算步骤(1)中已有甲状腺系统靶标干扰效应试验数据的化学物质的1d和2d分子结构描述符、pubchem分子指纹描述符,然后使用python程序中scikit-learn模块所含...

【专利技术属性】
技术研发人员:杨先海杨玥刘会会邴钰升李向巧
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1