【技术实现步骤摘要】
基于关系抽取和机器学习的药物发现方法、装置及设备
本申请涉及到人工智能领域,特别是涉及到一种基于关系抽取和机器学习的药物发现方法、装置和计算机设备。
技术介绍
辅助药物研发的主要技术是发现或寻找对疾病有疗效或者有潜在治疗效果的物质,支撑后续的药物研发过程。目前对于药物发现的技术主要利用药理物质的化学结构以及性质的相似性发现新药,这种方式需要依赖高质量的知识丰富的化学物结构、性质、相互作用的知识库,构建成本极高,而且很多化合物新被研究出来的知识、性质无法被利用。关于新药研发的另一个主要思路是从海量的文献中自动挖掘物质、疾病之间的治疗关系,从而发现候选的药物,通过机器学习的方法或者是专家制定规则等方法判断给定物质-疾病实体对是否有无关联(二元关系),没有判别给定物质-疾病实体对具体的关系类型(比如治疗、致病、靶向等具体的关系类型)。仅仅是二元关系抽取的应用非常有限,挖掘到的很多都是已经存在的知识,对于药物发现的推动性不大。而且,基于规则的方案目前的做法都是需要领域专家总结可用高质量规则,可获取的知识的数量完全取决于高质量 ...
【技术保护点】
1.一种基于关系抽取和机器学习的药物发现方法,其特征在于,包括:/n利用预设的关系抽取模型对包含物质-疾病实体对的自然语句进行实体对关系抽取,获得物质-疾病实体对的关系类型;/n根据关系类型的种类分别统计抽取到相同的指定关系类型的指定物质-疾病实体对的自然语句数量,将不同关系类型所对应的自然语句数量合成数量向量;/n将所述数量向量输入到预设的基于机器学习技术的药物发现模型中,获得物质是否可以作为疾病治疗药物的输出结果。/n
【技术特征摘要】
1.一种基于关系抽取和机器学习的药物发现方法,其特征在于,包括:
利用预设的关系抽取模型对包含物质-疾病实体对的自然语句进行实体对关系抽取,获得物质-疾病实体对的关系类型;
根据关系类型的种类分别统计抽取到相同的指定关系类型的指定物质-疾病实体对的自然语句数量,将不同关系类型所对应的自然语句数量合成数量向量;
将所述数量向量输入到预设的基于机器学习技术的药物发现模型中,获得物质是否可以作为疾病治疗药物的输出结果。
2.根据权利要求1所述的基于关系抽取和机器学习的药物发现方法,其特征在于,所述利用预设的关系抽取模型对包含物质-疾病实体对的自然语句进行实体对关系抽取,获得物质-疾病实体对的关系类型的步骤之前,包括:
在医学资料库中获取包含物质-疾病实体对的自然语句。
3.根据权利要求1所述的基于关系抽取和机器学习的药物发现方法,其特征在于,所述利用预设的关系抽取模型对包含物质-疾病实体对的自然语句进行实体对关系抽取,获得物质-疾病实体对的关系类型的步骤包括:
对所述自然语句进行分词处理,获取词序列;
将所述词序列输入到模型的wordembedding层,得到所述词序列中第i个词的词向量e-wordi;
将所述词序列输入到模型的pos-tagembedding层,得到所述词序列中第i个词的标签向量e-posi;
将所述词序列中的第i个词的词向量和标签向量串联拼接,得到第i个词的向量表示ei;
将拼接后的每个词的向量(ei,...,en)输入到模型的Bi-GRU层,得到隐藏向量(h1,...,hn);
将所述隐藏向量进行并行拼接得到matrix向量,
其中matrix=[h1:...:hn];
将所述matrix向量经过卷积操作和最大池化操作,得到向量vector;
将所述向量vector通过模型的全连接层得到输出标签y,其中y=softmax(W*vector),其中W是参数,softmax是多分类任务的激活函数,y是物质-疾病实体对的关系类别。
4.根据权利要求3所述的基于关系抽取和机器学习的药物发现方法,其特征在于,所述将所述matrix向量经过卷积操作和最大池化操作,得到向量vector的步骤包括:
将所述matrix向量通过8个卷积核操作后得到8个featuremap;
将8个featuremap分...
【专利技术属性】
技术研发人员:张圣,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。