本发明专利技术公开了一种评估基因毒性的方法、装置、存储介质和设备。本发明专利技术设计对基因的潜在毒性进行打分的方法,使用的人体全身正常组织的单细胞表达数据,能够更好的反映全身性用药的情况,根据基因在不同组织中的表达模式,判断靶点基因在局部用药和全身性用药时是否会产生明显的毒副反应,同时,将基因的毒性进行量化,能够直观的给出潜在靶点基因列表中基因之间毒性高低,并挑选适合的靶点。并挑选适合的靶点。并挑选适合的靶点。
【技术实现步骤摘要】
一种评估基因毒性的方法、装置、存储介质和设备
[0001]本专利技术属于生物
,涉及一种评估基因毒性的方法、装置、存储介质和设备。
技术介绍
[0002]在传统的癌症治疗中,一些化疗药物因为特异性差或者针对的是细胞生长中的重要基因,具有很强的副作用,近年来,人们致力于寻求高特异性、低副作用的癌症治疗药物。
[0003]在筛选治疗癌症的靶向药物中,最关键的一步是能寻找到毒性较低的靶点基因,传统的靶标毒性需要较多实验验证,成本高且耗时。而目前由于单细胞分析的多样性和特异性,基于单细胞表达谱的数据分析,使得人们能够对药物靶标的毒性进行验证,显著缩短时间和金钱成本。例如北京单细胞公司百奥智慧使用单细胞数据,能够分组织的观察到潜在靶点基因的表达,从而判断以该基因为靶点的药物是否会引起局部的不良反应以及严重后果。因此,通过使用单细胞数据,能够更好地在研发前期判断哪些是高副作用靶点并进行进行提取,从而选择低毒性的靶点基因涉及药物,大大降低了研发成本。
[0004]目前基于单细胞数据分析的方法获得候选靶标在特定组织器官中的细胞分布情况,虽然使得新药的分子靶向性不断提高,但全身系统性的给药仍然是目前最主流的方式,因此只观察局部的基因情况不能很好地反映这个基因的真实状态,同时,并未对基因的毒性进行量化。
[0005]综上所述,如何开发一种能够全面、准确量化分析基因毒性的方法,是靶向基因药物筛选领域亟需解决问题之一。
技术实现思路
[0006]针对现有技术的不足和实际需求,本专利技术提供一种评估基因毒性的方法、装置、存储介质和设备,提供一种对基因的潜在毒性进行打分的方法,使用人体全身健康组织的单细胞表达数据,来反映基因在人体全身的毒性,并对基因进行打分,能够助力于新药研发的毒性预测,将毒副作用识别在人体试验之前。
[0007]为达上述目的,本专利技术采用以下技术方案:
[0008]第一方面,本专利技术提供一种评估基因毒性的方法,所述方法包括以下步骤:
[0009](1)获取人体正常组织的单细胞表达文件,并利用文件中的单细胞表达数据按照细胞类型计算基因在每种细胞类型上的平均表达量;
[0010](2)基于步骤(1)计算的表达量,进行因素统计分析,所述因素包括基因在不同细胞类型的最高表达量、基因前3表达量的均值、基因前5表达量的均值、基因前10表达量的均值、基因表达量的均值、基因表达量>0.05的细胞类型数目、基因表达量>1的细胞类型数目、基因表达量>5的细胞类型数目、基因表达量>15的细胞类型数目、基因表达量>100的细胞类型数目、基因表达量>1000的细胞类型数目、基因表达量的方差和基因表达量在不同组织间的偏度(如表1所示);
[0011]将步骤(1)计算的表达量转换为rank值,进行因素统计分析,所述因素包括基因前3rank的均值、基因前5rank的均值、基因前10rank的均值、基因rank的均值、基因rank<0.75%的细胞类型数目、基因rank<10%的细胞类型数目、基因rank<40%的细胞类型数目、基因rank>40%的细胞类型数目、基因rank的方差和基因rank在不同组织间的偏度(如表1所示);
[0012](3)以已公开的靶点或者低毒性基因列表作为阳性基因列表,以人体正常细胞生长所必须的重要基因列表作为阴性基因列表,将步骤(2)计算的表达量与rank的各个因素与所述阳性基因列表和阴性基因列表进行对比,保留在两个列表之间显著性p value<1e
‑
10的因素;
[0013](4)使用步骤(3)中保留的因素进行pca分析,并根据pca结果使用knn模型进行得分计算,对基因毒性进行评分。
[0014]本专利技术中,设计基因毒性评估方法,流程示意图如图1所示,使用人体的正常组织单细胞表达数据,根据基因在不同组织中的表达模式,判断靶点基因在局部用药和全身性用药时是否会产生明显的毒副反应,同时,将基因的毒性进行量化,能够直观地给出潜在靶点基因列表中基因之间毒性高低,并挑选适合的靶点,对基因毒性潜在毒性的打分能够助力于新药研发的毒性预测,将毒副作用识别在人体试验之前,此外,可以根据未来发表的人体跨组织单细胞图谱数据进行更新,从而服务于药物研发。
[0015]表1
[0016][0017][0018]本专利技术中,如果输入的单细胞表达文件大于一个,则需要将处理好的数据进行整合。
[0019]优选地,步骤(4)所述已公开的靶点或者低毒性基因列表为FDA批准的小分子化疗药物靶点基因列表。
[0020]优选地,步骤(4)所述人体正常细胞生长所必须的重要基因列表为depmap数据库中使用crisper基因敲除后无法正常生长的基因列表。
[0021]优选地,所述表达量转换为rank值的方法包括:
[0022]将基因的表达量进行排序,并将排序值换算为百分比,即为rank值,表示这个基因在组织的细胞类型中表达量占前百分之几。
[0023]本专利技术中,将表达量转换成rank值,使用这两个变量共同来区分两个基因列表,Rank值用于展示某个基因在特定组织的特定细胞类型中表达水平,具体计算方法为将某个组织的某个细胞类型中表达量非零的基因进行排序,并将排序值换算成百分比,表示这个
基因在这个组织的细胞类型中表达量占前百分之几;对于表达量为0的基因,为了统一各细胞类型基因数,则直接给与rank=100,表示这个基因在这个细胞类型中不表达。
[0024]本专利技术中,使用knn模型计算每个基因的得分时,首先使用阴性和阳性基因列表进行模型构建与验证,在步骤(4)中筛选出阴性基因和阳性基因,将两部分基因结果整合在一起后随机取2/3的结果作为训练集,用于模型的训练;剩下1/3的结果作为测试集,作为模型性能的测试。得分等于1认为是没有毒性的基因,得分等于0认为是副作用明显的基因;得分大于0.5认为是基因更偏向阳性基因集,反之则是更偏向阴性基因集。在随机取样测试10次后统计结果,模型的准确率在85%~90%,认为该模型能够较好的区分阴性基因集和阳性基因集。
[0025]本专利技术中,在计算每个基因的得分时,为了不干扰模型的准确性,输入文件为阴性和阳性的所有基因,以及需要被计算得分的一个基因,将阴性和阳性基因用于构建knn模型,计算剩余的一个基因得分,用这种方法计算剩余所有基因的得分,得到基因的毒性得分列表。
[0026]第二方面,本专利技术提供一种评估基因毒性的装置,所述装置包括数据处理单元、数据分析单元、对比单元和评分单元。
[0027]所述数据处理单元用于执行包括:
[0028]获取人体正常组织的单细胞表达文件,并利用文件中的单细胞表达数据按照细胞类型计算基因在每种细胞类型上的平均表达量。
[0029]所述数据分析单元用于执行包括:
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种评估基因毒性的方法,其特征在于,所述方法包括以下步骤:(1)获取人体正常组织的单细胞表达文件,并利用文件中的单细胞表达数据按照细胞类型计算基因在每种细胞类型上的平均表达量;(2)基于步骤(1)计算的表达量,进行因素统计分析,所述因素包括基因在不同细胞类型的最高表达量、基因前3表达量的均值、基因前5表达量的均值、基因前10表达量的均值、基因表达量的均值、基因表达量>0.05的细胞类型数目、基因表达量>1的细胞类型数目、基因表达量>5的细胞类型数目、基因表达量>15的细胞类型数目、基因表达量>100的细胞类型数目、基因表达量>1000的细胞类型数目、基因表达量的方差和基因表达量在不同组织间的偏度;将步骤(1)计算的表达量转换为rank值,进行因素统计分析,所述因素包括基因前3rank的均值、基因前5rank的均值、基因前10rank的均值、基因rank的均值、基因rank<0.75%的细胞类型数目、基因rank<10%的细胞类型数目、基因rank<40%的细胞类型数目、基因rank>40%的细胞类型数目、基因rank的方差和基因rank在不同组织间的偏度;(3)以已公开的靶点或者低毒性基因列表作为阳性基因列表,以人体正常细胞生长所必须的重要基因列表作为阴性基因列表,将步骤(2)计算的表达量与rank的各个因素与所述阳性基因列表和阴性基因列表进行对比,保留在两个列表之间显著性p value<1e
‑
10的因素;(4)使用步骤(3)中保留的因素进行pca分析,并根据pca结果使用knn模型进行得分计算,对基因毒性进行评分。2.根据权利要求1所述的评估基因毒性的方法,其特征在于,步骤(3)所述已公开的靶点或者低毒性基因列表为FDA批准的小分子化疗药物靶点基因列表。3.根据权利要求1或2所述的评估基因毒性的方法,其特征在于,步骤(3)所述人体正常细胞生长所必须的重要基因列表为depmap数据库中使用crisper基因敲除后无法正常生长的基因列表。4.根据权利要求1
‑
3任一项所述的评估基因毒性的方法,其特征在于,所述表达量转换为rank值的方法包括:将基因的表达量进行排序,并将排序值换算为百分比,即为rank值,表示这个基因在组织的细胞类型中表达量占前百分之几。5.一种评估基因毒性的装置,其特征在于,所述装置包括数据处理单元、数据分析单元、对比单元和评分单元;所述数据处理单元用于执行包括:获取人体正常组织的单细胞表达文件,并利用文件中的单细胞表达数据按照细胞类型计算基因...
【专利技术属性】
技术研发人员:王赟,张锦波,范珏,方南,
申请(专利权)人:苏州新格元生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。