【技术实现步骤摘要】
【国外来华专利技术】网络中用于假设的潜在策略分布
[0001]本申请涉及用于训练和应用所训练的策略网络以遍历图形结构来确定目标和关联路径的排序列表的系统、设备和方法。
技术介绍
[0002]使用知识图谱来推断疾病和生物机制的目标(即基因)正变得越来越普遍。一种方法是使用多跳(multi
‑
hop)方法,其中代理(agent)在知识图谱中沿着多步路径导航,从“查询”实体遍历(traverse)到“回答”实体。当代理经过训练,从表示疾病或生物机制的查询实体导航到表示与该疾病或机制相关的目标的“回答”实体时,它可以学习(经过充分训练)预测新治疗目标的多步路径类型。这通常是通过强化学习来完成的,在这种学习中,代理因成功地从查询实体导航到“答案”实体而得到奖励。
[0003]现有的多跳方法存在几个问题,其中之一是从查询到目标的图中有许多可能的路径;代理可能在训练早期专注于虚假路径(即在图中存在查询和目标之间的路径,但实际上并不对应于有用或泛化(generalisable)的推理链)。先前已经通过动作退出(action dropo ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现方法,用于从图结构的查询中确定一个或多个目标节点和关联路径,包括:接收对所述图结构的查询,其中查询包括至少一个查询节点的数据表示;基于策略网络,响应于查询来识别一个或多个目标节点,其中所述策略网络被配置为根据与所述策略网络相关联的潜在策略分布来确定一个或多个目标节点;通过与所述策略网络相关的搜索来遍历图结构,其中搜索被配置为从查询节点导航到一个或多个被识别出的目标节点以确定关联路径;以及输出对于查询的一个或多个目标节点和关联路径的列表,其中列表根据潜在策略分布进行排序。2.根据权利要求1所述的计算机实现方法,其中所述策略网络根据潜在策略分布在所述图结构上提供在一个时间步上采取一个或多个动作的概率。3.根据权利要求1或2所述的计算机实现方法,其中所述策略网络相对于从查询节点到一个或多个目标节点的关联路径上的时间步上所有可用动作的均匀分布而被正则化。4.根据前述任一项权利要求所述的计算机实现方法,其中所述策略网络通过考虑期望奖励的基线估计和最后时间步所有可用动作的期望而被稳定。5.根据前述任一项权利要求所述的计算机实现方法,其中所述策略网络控制动作空间,所述动作空间包括存储为一个或多个可变长度张量的时间步的每个动作。6.根据前述任一项权利要求3所述的计算机实现方法,其中遍历所述图结构的高度连接部分的关联路径相对于正则化的策略网络而被惩罚。7.根据前述任一项权利要求所述的计算机实现方法,其中输出对于查询的一个或多个目标节点和关联路径的列表进一步包括:基于一个或多个预先确定的标准来选择关联路径。8.根据前述任一项权利要求所述的计算机实现方法,其中所述搜索包括定向搜索。9.根据前述任一项权利要求所述的计算机实现方法,进一步包括:随查询接收第二输入,其中第二输入在训练时被定义;其中,第二输入包括多个时间步中的至少一个、向量嵌入维度,或其组合;其中,在生成一个或多个目标节点时使用第二输入。10.一种从图结构生成策略网络的计算机实现方法,用于前述任一项权利要求所述的计算机实现方法中,所述计算机实现方法包括:接收第一策略,其中第一策略包括策略集,每个策略以相对于图结构的训练三元组为条件;通过最小化第一策略的策略集之间的熵差来优化第一策略以生成第二策略;以及基于生成的与潜在策略分布相关的第二策略建立策略网络。11.根据权利要求10所述的计算机实现方法,其中第一策略对应于生成模型。12.根据权利要求11所述的计算机实现方法,其中所述生成模型包括变分自动编码器的编码器。13.根据权利要求11或12所述的计算机实现方法,其中第一策略包含潜变量,潜变量呈现从开始节点到目标节点遍历图结构的路径的时间步。14.根据权利要求13中所述的计算机实现方法,其中路径的时间步受第一策略控制。15.根据权利要求10至14中任一项所述的计算机实现方法,其中第一策略被配置为使
从查询开始遍历图结构到达至少一个训练目标的概率最大化。16.根据权利要求15所述的计算机实现方法,其中到达至少一个训练目标的概率为零,使得在有限数量的时间步后,没有关联路径到达训练样本,通过用从图结构的目标中均匀采样的一个或多个不同目标替换至少一个训练目标来进行平滑化。17.根据权利要求15或16所述的计算机实现方法,其中通过使用一个或多个机器学习模型来实现遍历图结构到达至少一个训练...
【专利技术属性】
技术研发人员:D,
申请(专利权)人:伯耐沃伦人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。