一种基于深度学习的药物关系抽取方法技术

技术编号:26376464 阅读:26 留言:0更新日期:2020-11-19 23:45
本发明专利技术公开了一种基于深度学习的药物关系抽取方法,本发明专利技术利用RDKit工具,将药物分子式转换为分子图结构,再将药物分子的特征进行了表达,同时提取样本的文本特征,将药物分子特征和样本的文本特征进行了结合后,再利用全连接层softmax对药物关系进行分类,采用了句子中药物的理化性质,可以提高抽取准确率,解决现有方法难以覆盖所有文本场景且过分依赖外部自然语言处理工具的问题。

【技术实现步骤摘要】
一种基于深度学习的药物关系抽取方法
本专利技术涉及药物化学实体关系抽取领域,具体涉及一种基于深度学习的药物关系抽取方法。
技术介绍
药物化学实体关系抽取是指从文本中自动提取药物实体之间的关系,能够辅助药物研究人员进行新药研发,辅助医生为病人制定合理的治疗方案,也是构建药物化学知识数据库的基础。现有药化实体相互作用关系抽取方法主要有两类:基于规则的方法和基于有监督机器学习的方法。研究早期大多采用基于规则的方法,因为早期的药物关系提取缺少权威的已标注语料库。该类方法中表达作用关系的语句结构是固定有限的,即大多数的具有作用关系描述的句子之间具有相同或者相似的语句结构。该类方法对语句进行语法分析,检测语句的语法结构,根据药剂师制定的描述规则,从短句中抽取相互作用的药对,并进行药物对关系的分类。自DDIExtraction2011与DDIExtraction2013评测开始,基于有监督机器学习方法被用于药化实体相互作用关系抽取,其中最主要的是基于特征的方法,这类方法将关系抽取看作一个分类问题,用各种不同类型的特征显式地将候选关系实例表示成本文档来自技高网...

【技术保护点】
1.一种基于深度学习的药物关系抽取方法,其特征在于,包括以下步骤:/nS1、获取与药物相关的文献,将文献的文本内容以句子为基本单位分句,将每一句作为一个初始样本;/nS2、保留包含两个及以上药物名词的初始样本,并对保留的样本进行标注,得到标注样本;/nS3、在标注样本中根据词与药物的位置关系,为每个词增加一个相对药物的位置属性,得到与每个词对应的位置特征向量;/nS4、获取并将所有药物分子SMILES表达式转换为图结构,获取图结构中每个药物的药物分子特征向量;/nS5、将文本中的单词表示为向量,采用向量代替对应的单词,进而将每个句子向量化;/nS6、将向量化的句子输入深度学习网络,得到该句子对...

【技术特征摘要】
1.一种基于深度学习的药物关系抽取方法,其特征在于,包括以下步骤:
S1、获取与药物相关的文献,将文献的文本内容以句子为基本单位分句,将每一句作为一个初始样本;
S2、保留包含两个及以上药物名词的初始样本,并对保留的样本进行标注,得到标注样本;
S3、在标注样本中根据词与药物的位置关系,为每个词增加一个相对药物的位置属性,得到与每个词对应的位置特征向量;
S4、获取并将所有药物分子SMILES表达式转换为图结构,获取图结构中每个药物的药物分子特征向量;
S5、将文本中的单词表示为向量,采用向量代替对应的单词,进而将每个句子向量化;
S6、将向量化的句子输入深度学习网络,得到该句子对应的文本特征向量;
S7、将每个句子对应的文本特征向量和药物分子特征向量进行串联,得到与每个句子相对应的整体特征向量;
S8、将与每个句子相对应的整体特征向量输入全连接层,得到非线性表示的向量;
S9、采用softmax函数对非线性表示的向量进行分类,得到每个分类的概率,将概率最高的类作为识别得到的药对关系,完成药物关系抽取。


2.根据权利要求1所述的基于深度学习的药物关系抽取方法,其特征在于,所述步骤S2中对保留的样本进行标注,得到标注样本的具体方法为:
根据DDIExtraction2013挑战规则,将标签分为5类,分别是:建议、作用、药物机制、正向和无关系。


3.根据权利要求1所述的基于深度学习的药物关系抽取方法,其特征在于,所述步骤S3的具体方法为:
在标注样本中获取每个词与药物的位置关系,建立元素个数与药物数量相等的向量,若词在第n个药物之前m个位置,则将向量中第n个元素的数值设置为m;若词在第n个药物之后m个位置,则将向量中第n个元素的数值设置为-m,遍历每个药物,得到与该词对应的位置特征向量,进而得到与每个词对应的位置特征向量。


4.根据权利要求1所述的基于深度学习的药物关系抽取方法,其特征在于,所述步骤S4的具体方法包括以下子步骤:
S4-1、从数据库DrugBank中获取所有药物分子SMILES表达式;
S4-2、通过RDKit工具,以药物的每个原子作为节点,原子与原子之间的元素键作为边,将药物分子SMILES表达式转换为图结构;
S4-3、将图结构中所有元素键及原子随机初始化为一个向量,根据公式:



获取第v个原子及元素键在第t次迭代后的向量表示其中σ(·)为sigmod激活函数;Ht-1为参数矩阵;为第v个原子及元素键在第t-1次迭代后的向量表示;表示第w个原子及元素键在第t-1次迭代后的向量表示;N(v)表示第v个原子在图结构中相邻的原子及元素键的集合;
S4-4、根据公式:



获取第v个原子所对应的药物的药物分子特征向量,进而得到图结构中每个药物的药物分子特征向量;其中so...

【专利技术属性】
技术研发人员:刘勇国何家欢杨尚明李巧勤
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1