一种基于文本挖掘的蛋白质-药物相互作用预测方法技术

技术编号:36392439 阅读:11 留言:0更新日期:2023-01-18 09:57
本发明专利技术公开了一种基于文本挖掘的蛋白质

【技术实现步骤摘要】
一种基于文本挖掘的蛋白质

药物相互作用预测方法


[0001]本专利技术涉及文本挖掘和生物
,具体涉及一种基于文本挖掘的蛋白质

药物相互作用预测方法。

技术介绍

[0002]新型冠状病毒(SARS

CoV

2,简称“新冠病毒”)在世界范围内的持续大流行使得其导致的新型冠状病毒肺炎(COVID

19,简称“新冠肺炎”)对人类健康和社会经济造成了严重威胁。目前还没有抗新冠病毒原始株及其不同变体的特效药物。研究、开发有效抗新冠病毒药物是最终阻止新冠病毒大流行的主要手段之一。相对于从头开始的药物设计,药物再利用提供了一种时间短、成本低的寻找潜在抗新冠病毒药物的有效方法之一。预测已有药物和新冠病毒蛋白质相互作用是通过药物再利用找到潜在抗新冠病毒药物的有效途径。随着计算机辅助药物设计技术的发展,利用计算机技术进行药物

蛋白质相互作用的预测受到广泛关注。计算机辅助的药物

蛋白质相互作用预测方法作为一种快速的预测与特定蛋白质相互作用的潜在药物的手段受到越来越多研究者的关注。传统的机器学习方法高度依赖可用的带注释的训练数据集,特别地,目前对新冠病毒原始株及其不同变体的蛋白质,尤其是目前流行的奥密克戎变异株的蛋白质,还有许多未知特征。因此这些方法在预测药物

新冠病毒蛋白质相互作用时存在信息缺失、标记数据稀缺和假阴性问题。通过信息检索和文本挖掘方法大规模筛选和处理相关的研究成果,再结合分子对接方法,能够快速识别与新冠病毒蛋白质相互作用的潜在可再利用的抗新冠病毒候选药物,为后续的实验和临床研究提供可借鉴的理论依据。
[0003]冠状病毒是具有正链RNA的包膜病毒,于1937年从鸡身上分离出来,1965年首次发现人类冠状病毒,1960年代也发现了人畜共患病冠状病毒。研究表明,许多不同冠状病毒基因组之间具有较高的同源性。随着多年来对冠状病毒的深入研究,已发表了数百万篇相应的论文,其中许多论文的研究涉及药物与冠状病毒

蛋白质的相互作用,为预测抗新型冠状病毒药物的研究提供了极高的参考价值。对这些文本类型的数据可以采用数据挖掘算法对其进行信息提取,并且将相应的信息量化,以便计算机能够更加高效的进行处理。
[0004]基于论文The research on gene

disease association based on text

mining of PubMed(Zhou J,Fu B.The research on gene

disease association based on text

mining of PubMed[J].BMC bioinformatics,2018,19(1):1

8.)使用的通过文本挖掘提取基因

疾病之间的关联关系的方法。该方法以MeSH数据库里的基因和疾病作为关键词,通过对使用关键词检索的论文文档集进行处理,得到基因和疾病对应的向量,计算基因向量和疾病向量夹角的余弦值作为该基因和疾病对的得分,进而预测基因

疾病之间的关联关系;通过OMIM数据库中的金标准数据集进行验证。然而,蛋白质

药物相互作用和基因

疾病相互作用存在一定差异,特别地,蛋白质和药物相关数据库中的蛋白质和药物不具有MeSH数据库里的基因和疾病的树形结构。因此,所述论文的方法预测蛋白质

药物相互作用具有一定的局限性。

技术实现思路

[0005]本专利技术为避免利用机器学习方法预测蛋白质

药物相互作用时遇到的问题,克服上述论文所提及方法的局限性,提供一种基于文本挖掘的蛋白质

药物相互作用预测方法。
[0006]本专利技术的目的至少通过如下技术方案之一实现。
[0007]一种基于文本挖掘的蛋白质

药物相互作用预测方法,包括以下步骤:
[0008]S1、利用多个蛋白质数据库检索并构造冠状病毒相关蛋白质名关键词集;使用药物数据库构建药物名关键词集;构造限定词集;
[0009]S2、利用冠状病毒相关蛋白质名关键词集中的每个蛋白质名、药物名关键词集中的每个药物名和限定词集中的每个限定词在相关数据库中提取相关研究结果的标题和摘要作为文档,构造文档集;提取的每个文档作为文档集的一条记录(文档);
[0010]S3、分别提取文档集中所有文档中的包括在冠状病毒相关蛋白质名关键词集和药物名关键词集中的蛋白质名和药物名,构建文档蛋白质名集和文档药物名集;将文档蛋白质名集和文档药物名集合并为一个集,称为文档蛋白质和药物名集;
[0011]S4、利用文档蛋白质和药物名集以及词干分析算法将文档集中的每个文档转化为一个文档向量;
[0012]S5、利用改进的TF

IDF算法、文档向量和文档蛋白质和药物名集计算文档蛋白质和药物名集中每个蛋白质和每个药物对应的向量;
[0013]S6、计算文档蛋白质名集中的每个蛋白质对应的向量和文档药物名集中每个药物对应向量夹角余弦值,将归一化后的夹角余弦值作为该蛋白质和药物对的得分;
[0014]S7、根据计算得到的蛋白质和药物对的得分在不同区间的统计分布,以及在不同区间中的蛋白质

药物对数和包括的药物数,确定阈值,将得分高于给定阈值的相应蛋白质和药物对作为预测的有相互作用的蛋白质

药物对;将预测的有相互作用的蛋白质

药物对中的药物两两组合构成药物对,将药物和药物对分别利用分子对接工具与新型冠状病毒有关蛋白质进行分子对接;
[0015]S8、根据步骤S7中的对接结合确定潜在抗新冠病毒的药物和药物对。
[0016]进一步地,步骤S1包括以下步骤:
[0017]S1.1、在多个蛋白质数据库中以

coronavirus

为关键词检索与冠状病毒属(coronavirus genus)的α、β、γ和δ4个子属下的所有不同种冠状病毒相关的蛋白质条目,简称

冠状病毒相关蛋白质条目


[0018]S1.2将通过步骤S1.1检索得到的每个冠状病毒相关蛋白质条目中的蛋白质名作为冠状病毒相关蛋白质名关键词集的一条记录;若检索得到的冠状病毒相关蛋白质条目中的蛋白质存在别名或蛋白质名的缩写,则分别将别名和缩写也作为冠状病毒相关蛋白质名关键词集的一条记录;删除字符数小于等于2的蛋白质名、别名和缩写;最后构建用于提取文档集的冠状病毒相关蛋白质名关键词集;
[0019]冠状病毒相关蛋白质名关键词集中的蛋白质来自于不同物种;所述冠状病毒相关蛋白质名关键词集中也包括已经实验验证的与某种冠状病毒本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本挖掘的蛋白质

药物相互作用预测方法,其特征在于,包括以下步骤:S1、利用多个蛋白质数据库检索并构造冠状病毒相关蛋白质名关键词集;使用药物数据库构建药物名关键词集;构造限定词集;S2、利用冠状病毒相关蛋白质名关键词集中的每个蛋白质名、药物名关键词集中的每个药物名和限定词集中的每个限定词在相关数据库中提取相关研究结果的标题和摘要作为文档,构造文档集;提取的每个文档作为文档集的一条记录;S3、分别提取文档集中所有文档中的包含在冠状病毒相关蛋白质名关键词集和药物名关键词集中的蛋白质名和药物名,构建文档蛋白质名集和文档药物名集;将文档蛋白质名集和文档药物名集合并为一个集,称为文档蛋白质和药物名集;S4、利用文档蛋白质和药物名集以及词干分析算法将文档集中的每个文档转化为一个文档向量;S5、利用改进的TF

IDF算法、文档向量和文档蛋白质和药物名集计算文档蛋白质和药物名集中每个蛋白质和每个药物对应的向量;S6、计算文档蛋白质名集中的每个蛋白质对应的向量和文档药物名集中每个药物对应向量夹角余弦值,将归一化后的夹角余弦值作为该蛋白质和药物对的得分;S7、根据计算得到的蛋白质和药物对的得分在不同区间的统计分布,以及在不同区间中的蛋白质

药物对数和包含的药物数,确定阈值,将得分高于给定阈值的相应蛋白质和药物对作为预测的有相互作用的蛋白质

药物对;将预测的有相互作用的蛋白质

药物对中的药物两两组合构成药物对,将药物和药物对分别利用分子对接工具与新型冠状病毒有关蛋白质进行分子对接;S8、根据步骤S7中的对接结合确定潜在抗新冠病毒的药物和药物对。2.根据权利要求1所述的一种基于文本挖掘的蛋白质

药物相互作用预测方法,其特征在于,步骤S1包括以下步骤:S1.1、在多个蛋白质数据库中以

coronavirus

为关键词检索与冠状病毒属的α、β、γ和δ4个子属下的所有不同种冠状病毒相关的蛋白质条目,简称

冠状病毒相关蛋白质条目

;S1.2将通过步骤S1.1检索得到的每个冠状病毒相关蛋白质条目中的蛋白质名作为冠状病毒相关蛋白质名关键词集的一条记录;若检索得到的冠状病毒相关蛋白质条目中的蛋白质存在别名或蛋白质名的缩写,则分别将别名和缩写也作为冠状病毒相关蛋白质名关键词集的一条记录;删除字符数小于等于2的蛋白质名、别名和缩写;最后构建用于提取文档集的冠状病毒相关蛋白质名关键词集;S1.3、在药物数据库中提取药物名,删除字符数小于等于2的药物名;构建用于提取文档集的药物名关键词集。3.根据权利要求1所述的一种基于文本挖掘的蛋白质

药物相互作用预测方法,其特征在于,步骤S2中,提取的包含标题和摘要的相关研究结果,其标题和/或摘要中需同时包含冠状病毒相关蛋白质名关键词集、药物名关键词集和限定词集中的每个集的至少各一条记录;提取的相关研究结果需同时包含标题和摘要;如果提取的相关研究结果只包含标题而不包含摘要,则该文档不计入文档集;
根据文档集中记录的文档的顺序,将文档集看成是一个有序集;文档集记为:其中F
f
表示文档集中的第f个文档,f=1,2,

,G,G表示文档集中包含的文档总数。4.根据权利要求1所述的一种基于文本挖掘的蛋白质

药物相互作用预测方法,其特征在于,步骤S3中,根据文档蛋白质名集中蛋白质名的顺序,将文档蛋白质名集看成是一个有序集;文档蛋白质名集记为:其中,B
p
表示文档蛋白质名集中的第p个蛋白质名,p=1,2,

,P,P表示文档蛋白质名集中包含的蛋白质名的总数;根据文档药物名集中记录的药物名的顺序,将文档药物名集看成是一个有序集;文档药物名集记为:其中,H
d
表示文档药物名集中的第d个药物名,d=1,2,

,D,D表示文档药物名集中包含的药物名的总数;文档蛋白质和药物名集记为:其中,R
p
=B
p
,p=1,2,

,P,R
P+d
=H
d
,d=1,2,

,D,令C=P+D,表示文档蛋白质和药物名集中出现的蛋白质名和药物名的总数。5.根据权利要求1所述的一种基于文本挖掘的蛋白质

药物相互作用预测方法,其特征在于,步骤S4包括以下步骤:S4.1、利用词干提取算法,将文档集中的每个文档的内容,即标题和摘要中的单词转换为词干的形式,结果仍称为文档集;将文档蛋白质名集和文档药物名集中的所有蛋白质名和药物名转换为词干的形式,结果仍称为文档蛋白质名集和文档药物名集;文档蛋白质和药物名集中的所有蛋白质名和药物名也为词干的形式,结果仍称为文档蛋白质和药物名集;S4.2、将步骤S4.1中得到的文档集中的每个文档内容的标题和摘要中包含的文档蛋白质和药物名集中的所有蛋白质名和/或药物名,赋予不同权...

【专利技术属性】
技术研发人员:胥毅卿周杰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1