【技术实现步骤摘要】
一种基于文本挖掘的蛋白质
‑
药物相互作用预测方法
[0001]本专利技术涉及文本挖掘和生物
,具体涉及一种基于文本挖掘的蛋白质
‑
药物相互作用预测方法。
技术介绍
[0002]新型冠状病毒(SARS
‑
CoV
‑
2,简称“新冠病毒”)在世界范围内的持续大流行使得其导致的新型冠状病毒肺炎(COVID
‑
19,简称“新冠肺炎”)对人类健康和社会经济造成了严重威胁。目前还没有抗新冠病毒原始株及其不同变体的特效药物。研究、开发有效抗新冠病毒药物是最终阻止新冠病毒大流行的主要手段之一。相对于从头开始的药物设计,药物再利用提供了一种时间短、成本低的寻找潜在抗新冠病毒药物的有效方法之一。预测已有药物和新冠病毒蛋白质相互作用是通过药物再利用找到潜在抗新冠病毒药物的有效途径。随着计算机辅助药物设计技术的发展,利用计算机技术进行药物
‑
蛋白质相互作用的预测受到广泛关注。计算机辅助的药物
‑
蛋白质相互作用预测方法作为一种快速的预测与特定蛋白质相互作用的潜在药物的手段受到越来越多研究者的关注。传统的机器学习方法高度依赖可用的带注释的训练数据集,特别地,目前对新冠病毒原始株及其不同变体的蛋白质,尤其是目前流行的奥密克戎变异株的蛋白质,还有许多未知特征。因此这些方法在预测药物
‑
新冠病毒蛋白质相互作用时存在信息缺失、标记数据稀缺和假阴性问题。通过信息检索和文本挖掘方法大规模筛选和处理相关的研究成果 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本挖掘的蛋白质
‑
药物相互作用预测方法,其特征在于,包括以下步骤:S1、利用多个蛋白质数据库检索并构造冠状病毒相关蛋白质名关键词集;使用药物数据库构建药物名关键词集;构造限定词集;S2、利用冠状病毒相关蛋白质名关键词集中的每个蛋白质名、药物名关键词集中的每个药物名和限定词集中的每个限定词在相关数据库中提取相关研究结果的标题和摘要作为文档,构造文档集;提取的每个文档作为文档集的一条记录;S3、分别提取文档集中所有文档中的包含在冠状病毒相关蛋白质名关键词集和药物名关键词集中的蛋白质名和药物名,构建文档蛋白质名集和文档药物名集;将文档蛋白质名集和文档药物名集合并为一个集,称为文档蛋白质和药物名集;S4、利用文档蛋白质和药物名集以及词干分析算法将文档集中的每个文档转化为一个文档向量;S5、利用改进的TF
‑
IDF算法、文档向量和文档蛋白质和药物名集计算文档蛋白质和药物名集中每个蛋白质和每个药物对应的向量;S6、计算文档蛋白质名集中的每个蛋白质对应的向量和文档药物名集中每个药物对应向量夹角余弦值,将归一化后的夹角余弦值作为该蛋白质和药物对的得分;S7、根据计算得到的蛋白质和药物对的得分在不同区间的统计分布,以及在不同区间中的蛋白质
‑
药物对数和包含的药物数,确定阈值,将得分高于给定阈值的相应蛋白质和药物对作为预测的有相互作用的蛋白质
‑
药物对;将预测的有相互作用的蛋白质
‑
药物对中的药物两两组合构成药物对,将药物和药物对分别利用分子对接工具与新型冠状病毒有关蛋白质进行分子对接;S8、根据步骤S7中的对接结合确定潜在抗新冠病毒的药物和药物对。2.根据权利要求1所述的一种基于文本挖掘的蛋白质
‑
药物相互作用预测方法,其特征在于,步骤S1包括以下步骤:S1.1、在多个蛋白质数据库中以
‘
coronavirus
’
为关键词检索与冠状病毒属的α、β、γ和δ4个子属下的所有不同种冠状病毒相关的蛋白质条目,简称
‘
冠状病毒相关蛋白质条目
’
;S1.2将通过步骤S1.1检索得到的每个冠状病毒相关蛋白质条目中的蛋白质名作为冠状病毒相关蛋白质名关键词集的一条记录;若检索得到的冠状病毒相关蛋白质条目中的蛋白质存在别名或蛋白质名的缩写,则分别将别名和缩写也作为冠状病毒相关蛋白质名关键词集的一条记录;删除字符数小于等于2的蛋白质名、别名和缩写;最后构建用于提取文档集的冠状病毒相关蛋白质名关键词集;S1.3、在药物数据库中提取药物名,删除字符数小于等于2的药物名;构建用于提取文档集的药物名关键词集。3.根据权利要求1所述的一种基于文本挖掘的蛋白质
‑
药物相互作用预测方法,其特征在于,步骤S2中,提取的包含标题和摘要的相关研究结果,其标题和/或摘要中需同时包含冠状病毒相关蛋白质名关键词集、药物名关键词集和限定词集中的每个集的至少各一条记录;提取的相关研究结果需同时包含标题和摘要;如果提取的相关研究结果只包含标题而不包含摘要,则该文档不计入文档集;
根据文档集中记录的文档的顺序,将文档集看成是一个有序集;文档集记为:其中F
f
表示文档集中的第f个文档,f=1,2,
…
,G,G表示文档集中包含的文档总数。4.根据权利要求1所述的一种基于文本挖掘的蛋白质
‑
药物相互作用预测方法,其特征在于,步骤S3中,根据文档蛋白质名集中蛋白质名的顺序,将文档蛋白质名集看成是一个有序集;文档蛋白质名集记为:其中,B
p
表示文档蛋白质名集中的第p个蛋白质名,p=1,2,
…
,P,P表示文档蛋白质名集中包含的蛋白质名的总数;根据文档药物名集中记录的药物名的顺序,将文档药物名集看成是一个有序集;文档药物名集记为:其中,H
d
表示文档药物名集中的第d个药物名,d=1,2,
…
,D,D表示文档药物名集中包含的药物名的总数;文档蛋白质和药物名集记为:其中,R
p
=B
p
,p=1,2,
…
,P,R
P+d
=H
d
,d=1,2,
…
,D,令C=P+D,表示文档蛋白质和药物名集中出现的蛋白质名和药物名的总数。5.根据权利要求1所述的一种基于文本挖掘的蛋白质
‑
药物相互作用预测方法,其特征在于,步骤S4包括以下步骤:S4.1、利用词干提取算法,将文档集中的每个文档的内容,即标题和摘要中的单词转换为词干的形式,结果仍称为文档集;将文档蛋白质名集和文档药物名集中的所有蛋白质名和药物名转换为词干的形式,结果仍称为文档蛋白质名集和文档药物名集;文档蛋白质和药物名集中的所有蛋白质名和药物名也为词干的形式,结果仍称为文档蛋白质和药物名集;S4.2、将步骤S4.1中得到的文档集中的每个文档内容的标题和摘要中包含的文档蛋白质和药物名集中的所有蛋白质名和/或药物名,赋予不同权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。