【技术实现步骤摘要】
【国外来华专利技术】基于机器学习的类依赖推断
技术介绍
[0001]本专利技术一般涉及用于执行基于机器学习的推断的计算机实现的技术,并且更具体地,涉及用于执行与化学逆合成分析相关联的基于机器学习的类依赖(class
‑
dependent)推断的计算机实现的方法、计算机系统和计算机程序产品。
[0002]机器学习通常依赖于人工神经网络(ANN),人工神经网络是由人类或动物大脑中的生物神经网络启发的计算模型。这样的系统通过示例渐进地和自主地学习任务,并且已经成功地应用于语音识别、文本处理和计算机视觉。通常,ANN包括一组连接的单元或节点,其可以被比作生物神经元,因此被称为人工神经元。信号沿着人工神经元(类似于突触)之间的连接(也称为边缘)传输。也就是说,接收信号的人工神经元处理该信号,然后发信号给其他连接的神经元。已知许多类型的神经网络,包括前馈神经网络,诸如多层感知器、深度神经网络和卷积神经网络。已经提出了复杂的网络架构,特别是在自然语言处理、语言建模和机器翻译领域,参见例如在神经信息处理系统的进展中6000页
‑
6010页,A ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种执行基于机器学习的类依赖推断的计算机实现的方法,所述方法包括:访问测试输入和N个类标识符,其中所述N个类标识符中的每个类标识符标识M个可能类中的相应的类;形成N个测试输入数据结构,其中所述N个测试输入数据结构中的每个测试输入数据结构是通过将所述测试输入与所述N个类标识符中的不同的一个类标识符聚合而被形成的;使用机器学习模型针对所述N个测试输入数据结构中的每个测试输入数据结构生成推断,所述机器学习模型是使用将示例输入数据结构与相应的示例输出相关联的示例来被训练的,其中每个相应的示例输入数据结构是通过将示例输入与所述N个类标识符中的不同的一个类标识符聚合而被形成的;以及基于针对每个相应的测试输入数据结构生成的所述推断,针对每个相应的测试输入数据结构返回类依赖推断结果。2.根据权利要求1所述的计算机实现的方法,还包括在访问所述测试输入之前:访问包括将所述示例输入数据结构与所述相应的示例输出相关联的所述示例的训练集;以及根据所述示例训练所述机器学习模型。3.根据权利要求1所述的计算机实现的方法,其中:推断是基于分别从所述N个输入数据结构提取的N个特征集而被生成的;以及所述机器学习模型是基于从所述示例输入数据结构提取的特征而被训练的模型。4.根据权利要求3所述的计算机实现的方法,其中:所述N个测试输入数据结构中的每个测试输入数据结构是通过将表示所述测试输入的字符串与表示所述N个标识符中的所述不同的一个标识符的字符串连接而被形成的;以及用于训练所述机器学习模型的所述示例输入数据结构中的每个示例输入数据结构是通过将表示所述示例输入的字符串与表示所述N个类标识符中的所述不同的一个类标识符的所述字符串连接而被形成的。5.根据权利要求4所述的计算机实现的方法,其中:所述N个特征集是从所述N个输入数据结构的标记化版本被提取的;所述机器学习模型是基于从所述示例输入数据结构的标记化版本提取的特征来被训练的;以及所述N个输入数据结构的标记化版本和所述示例输入数据结构的标记化版本中的每个是通过应用相同的标记化算法而被获得的。6.根据权利要求1所述的计算机实现的方法,其中:所述机器学习模型包括编码器
‑
解码器结构,所述编码器
‑
解码器结构包括被连接到一个或多个解码器的一个或多个编码器,其中所述编码器中的每个编码器和所述解码器中的每个解码器包括注意力层和前馈神经网络,所述注意力层与所述前馈神经网络互操作,以便通过预测可能输出的概率来生成针对所述N个测试输入数据结构中的每个测试输入数据结构的所述推断。7.根据权利要求5所述的计算机实现的方法,其中:表示所述测试输入、所述示例输入和所述类标识符的所述字符串是根据一组相同句法规则而获得的字符串;以及
所述标记化算法是根据所述句法规则被设计的。8.根据权利要求7所述的计算机实现的方法,还包括:基于所述标记化算法从表示所述N个类标识符的所述字符串生成相应的标记。9.根据权利要求7所述的计算机实现的方法,其中:表示所述测试输入数据结构的所述字符串和表示所述示例数据输入结构的所述字符串是ASCII字符串,所述ASCII字符串指定与化学反应产物相对应的化学种类的结构;以及用于训练所述机器学习模型的每个所述示例输出是通过聚合所述化学反应产物的两个或更多个前体的结构的规格而被形成的ASCII字符串。10.根据权利要求9所述的计算机实现的方法,其中:所述ASCII字符串是根据简化分子线性输入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。