一种基于文本隐含信息的药物靶标特征学习方法及装置制造方法及图纸

技术编号:26732481 阅读:38 留言:0更新日期:2020-12-15 14:36
本发明专利技术提供一种基于文本隐含信息的药物靶标特征学习方法,所述方法包括步骤:获取药物靶标多个文本关键描述信息以及文献的摘要信息;使用向量计算工具Word2vec和Doc2vec将药物靶标的多个文本关键描述信息转化为多个向量;采用多示例学习算法将多个向量进行单示例化,得到药物靶标的特征表示向量。本发明专利技术针对大量的文本信息,运用向量工具挖掘大量文献中隐含的信息并表示为特征向量,训练过程中利用了关键信息的上下文,丰富了语义信息,提高了样本特征提取的准确度;将文本信息转化为向量,运用机器学习的知识,可以用来确定新的药物靶标应于新药的开发,还可以用来预测靶标分子的生物学功能,预测与配体药物的结合,可以用来寻找相似的靶标分子。

【技术实现步骤摘要】
一种基于文本隐含信息的药物靶标特征学习方法及装置
本专利技术涉及一种基于文本挖掘的向量生成方法,特别涉及基于文本隐含信息的药物靶标特征学习方法和装置。
技术介绍
药物靶标是指药物在体内的作用结合位点,包括基因位点、受体、酶、离子通道、核酸等生物大分子,在人类视觉、嗅觉、味觉以及神经传递等各项正常生理活动和疾病过程中都发挥着重要的作用。药物靶标的功能研究对药物开发、疾病治疗极为关键,而有效地表征药物靶标分子对其功能研究非常重要。药物靶标通常为蛋白质分子,目前常见用来表征蛋白质分子的信息有序列信息、结构信息、生物信息。同时,我们发现在已有的生物医学文献库中包含海量的文本信息,并且其中大量信息为隐含信息或非直接信息。因此,如何从海量的文献数据中挖掘出这些隐含或非直接信息至关重要,而且把这些信息更为客观地用向量形式表示出来,对后续的通过向量计算、机器学习模型构建等途径进行知识表示和挖掘是必不可少的,也将对药物靶标的分析提供重要的支撑。
技术实现思路
专利技术目的:为解决大量文本隐含信息的药物靶标特征学习问题,提供一种有效的基本文档来自技高网...

【技术保护点】
1.一种基于文本隐含信息的药物靶标特征学习方法,其特征在于,所述方法包括步骤:/n(1)获取药物靶标多个文本关键描述信息以及文献的摘要信息;/n(2)使用向量计算工具Word2vec和Doc2vec将药物靶标的多个文本关键描述信息转化为多个向量;/n(3)采用多示例学习算法将多个向量进行单示例化,得到药物靶标的特征表示向量。/n

【技术特征摘要】
1.一种基于文本隐含信息的药物靶标特征学习方法,其特征在于,所述方法包括步骤:
(1)获取药物靶标多个文本关键描述信息以及文献的摘要信息;
(2)使用向量计算工具Word2vec和Doc2vec将药物靶标的多个文本关键描述信息转化为多个向量;
(3)采用多示例学习算法将多个向量进行单示例化,得到药物靶标的特征表示向量。


2.根据权利要求1所述的一种基于文本隐含信息的药物靶标特征学习方法,其特征在于,所述步骤(1)包括:
(1.1)获取所需要的初始数据,所述方法从蛋白质数据库即UniProt数据库中提取出每一个drugtarget的蛋白质、物种、分子功能、参考文献的相关特征信息;
(1.2)在生物医学文献数据库中输入关键字“drugtarget”进行文献查询,检索到文献摘要作为训练集。


3.根据权利要求1所述的一种基于文本隐含信息的药物靶标特征学习方法,其特征在于,所述步骤(2)包括:
(2.1)词向量模型训练是从PubMed生物文献数据库中下载关于drugtarget的摘要文献作为训练集,从UniProt数据库中提取出的每一个drugtarget的蛋白质、物种等信息作为目标向量,运用word2vec参数模型CBOW将大量的文献信息训练成词向量,word2vec的方法是将Xw的更新量贡献到每个单词的词向量上去:
其中,Xw是输入词向量的和,而不是单个的词向量,代表上下文中某一个单词的词向量;
(2.2)句子向量模型训练采用另外的训练方式,即Doc2vec,模型也分为输入层、投影层和输出层,以PubMed生物文献数据库中下载摘要文献作为训练集,从UniProt数据库中提取出的每一个drugtarget的分子功能、参考文献等句子信息作为需要求的目标向量,模型的目标是最大化平均对数似然函数:

中,wt为所求的目标词,Dt为目标词所在的段落向量。


4.根据权利要求1所述的一种基于文本隐含信息的药物靶标特征学习方法,其特征在于,步骤(3)包括:采用多示例学习算法miFV,将多个示例的包转换成单个向量表示;利用梯度计算包的Fisher向量;样本的一个示例包Xi的维度为d,其中是一个标量,和是d维的向量,因此描述包Xi的Fisher向量是和的组合:对于一个样本Xi,由ni个示例组成,每个示例的特征向量为d维,通过miFV算法处理之后,得到的样本Xi由一个(2d+1)×K维的Fisher向量表示,其中的参数K是高斯模型中的组分个数。


5.一种基于...

【专利技术属性】
技术研发人员:吴建盛徐寒梅胡海峰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1