当前位置: 首页 > 专利查询>吉林大学专利>正文

一种流形进化图构建方法、装置、设备及可存储介质制造方法及图纸

技术编号:26691854 阅读:70 留言:0更新日期:2020-12-12 02:44
本发明专利技术适用数据处理技术领域,提供流形进化图构建方法、装置、设备及可存储介质,包括:构建基本组分序向量树;基本组分序向量树包括至少一个主序列节点及主序列节点的基本组分序向量和权重向量;根据主序列节点的基本组分序向量和权重向量,确定与主序列节点不同近邻关系的候选序列节点的基本组分序向量和权重向量;当根据候选序列节点的基本组分序向量和权重向量,在基本组分序向量树中查找到候选序列节点时,则对对应的近邻关系进行标注;根据主序列节点以及近邻关系,构建流形进化图。本发明专利技术中序列节点间的关系通过流形空间近邻关系得到,计算量小,可靠性高,可实现任意大规模复杂高维非线性强关联数据的进化关系分析。

【技术实现步骤摘要】
一种流形进化图构建方法、装置、设备及可存储介质
本专利技术属于数据处理
,尤其涉及一种流形进化图构建方法、装置、设备及可存储介质。
技术介绍
理清复杂高维空间非线性强关联对象/数据(例如生物学序列,生物大分子结构,图片,文本,音视频等)之间的关系是目前人工智能技术不能有效解决但亟待克服的挑战。维度之间的强关联使得这些数据实际存在于远低于名义维度的相对低维流形空间中。常用的各种距离表征手段(如欧式距离(EuclideanDistance)、曼哈顿距离(ManhattanDistance)、马氏距离(MahalanobisDistance)、明可夫斯基距离(MinkowskiDistance)、切比雪夫距离(ChebyshevDistance)、生物学序列同一性(biologicalsequenceidentity)等)都是在名义高维空间直接进行的计算,一般仅当名义高维空间中的距离很小时会趋近流形空间距离,而在其他很多情况下往往是无效的。所有复杂高维非线性强关联数据都有类似困难,不同数据记录/对象之间有物理意义的距离是在相对低维流形空间中的距离,而非名义高维空间中的距离。但正因为多维度之间非线性强关联的复杂性,对任何实际此类数据对象,直接从理论上确定其所构成的流形空间的形态以及与名义高维空间的映射关系一般是非常难以实现的。例如一对蛋白质序列的同一性大约在30%左右时,人们很难判断这些对应的氨基酸同一性是碰巧形成的还是因为它们之间有较为相近的同源进化关系。目前人们对生物学序列普遍采用构建进化树的方式确定其进化关系,但可靠的进化树构建过程(如consistencybased方法)计算复杂度高,很难对大量生物学序列(万级或以上)实现,而以目前的测序能力,千亿级以上的蛋白质序列数据距离我们很近。另外,由于进化树构建的基础往往使用基于序列比对的同一性计算作为基础,所以不能克服序列同一性较低时不可靠的根本局限,和序列比对依赖于诸多不确定性较高的参数(如两两序列比对使用的打分矩阵以及构建多序列比对时的其他参数)的明显局限;而其他高维非线性强关联数据也都有类似的困难。由此可见,现有技术中的距离度量方式存在不能有效表征高维非线性强关联数据样本之间在其低维流形空间中距离的问题。
技术实现思路
本专利技术实施例的目的在于提供一种流形进化图构建方法,旨在解决现有技术中的距离度量方式存在不能有效表征高维非线性强关联数据样本之间在其低维流形空间中距离的问题。本专利技术实施例是这样实现的,一种流形进化图构建方法,包括:获取待处理数据集;根据所述待处理数据集,构建基本组分序向量树;所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量;根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量;当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量,在所述基本组分序向量树中查找到所述候选序列节点时,则对对应的近邻关系进行相互标注;根据所述主序列节点以及近邻关系,构建流形进化图。本专利技术实施例的另一目的在于一种流形进化图构建装置,包括:数据集获取单元,用于获取待处理数据集;组分序向量树构建单元,用于根据所述待处理数据集,构建基本组分序向量树;所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量;序向量和权重向量确定单元,用于根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量;近邻关系标注单元,用于当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量,在所述基本组分序向量树中查找到所述候选序列节点时,则对对应的近邻关系进行相互标注;以及流形进化图构建单元,根据所述主序列节点以及近邻关系,构建流形进化图。本专利技术实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述流形进化图构建方法的步骤。本专利技术实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述流形进化图构建方法的步骤。本专利技术实施例提供的流形进化图构建方法,通过基本组分序向量树构建进化流形图,将基本组分序向量树中每个序列节点作为流形进化图的节点,仅有极个别多条高度相似却不完全相同序列共享基本组分序向量和基本组分权重向量时使用序列比对实现近邻关系标注,而绝大多数近邻关系则通过基本组分序向量和/或权重向量实现,因此计算量小;对极个别需要序列比对的共享基本组分序向量和权重向量的序列,由于它们高度相似,比对结果对打分矩阵以及其他相关参数的依赖小,可靠性高;并且,基本组分序向量树同一节点中不同基本组分权重向量的序列依据基本组分权重向量的差别区分相邻关系,可以实现任意超大规模复杂高维非线性强关联数据的进化关系分析。附图说明图1为本专利技术实施例提供的一种流形进化图构建方法的实现流程图;图2为本专利技术实施例提供的另一种流形进化图构建方法的实现流程图;图3为本专利技术实施例提供的又一种流形进化图构建方法的实现流程图;图4为本专利技术实施例提供的一种流形进化图中相邻序列关系示意图;图5为本专利技术实施例提供的再一种流形进化图构建方法的实现流程图;图6为本专利技术实施例提供的流形进化图构建装置的结构框图;图7为本专利技术实施例提供的流形进化图构建装置中序向量和权重向量确定单元的结构框图;图8为一个实施例中计算机设备的内部结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。为了解决现有技术中的距离度量方式存在不能有效表征高维非线性强关联数据样本之间在其低维流形空间中距离的问题,本专利技术实施例提供了流形进化图构建方法,根据待处理数据集,构建包含每一条独特记录(又称为序列,也是待构建的流形进化图中的图节点)的基本组分序向量树;基本组分序向量树包括至少一个根节点和一个非空子树节点,每个非空子树节点至少包括一条记录/序列/图节点,该非空子树节点在组分序向量树中的位置由对应的基本组分序向量确定。而每条记录/序列/图节点可依据数据集大小保存(记录/序列/图节点本身,其编号,本文档来自技高网
...

【技术保护点】
1.一种流形进化图构建方法,其特征在于,包括:/n获取待处理数据集;/n根据所述待处理数据集,构建基本组分序向量树;所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量;/n根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量;/n当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量,在所述基本组分序向量树中查找到所述候选序列节点时,则对对应的近邻关系进行相互标注;/n根据所述主序列节点以及近邻关系,构建流形进化图。/n

【技术特征摘要】
1.一种流形进化图构建方法,其特征在于,包括:
获取待处理数据集;
根据所述待处理数据集,构建基本组分序向量树;所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量;
根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量;
当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量,在所述基本组分序向量树中查找到所述候选序列节点时,则对对应的近邻关系进行相互标注;
根据所述主序列节点以及近邻关系,构建流形进化图。


2.根据权利要求1所述的流形进化图构建方法,其特征在于,所述根据所述待处理数据集,构建基本组分序向量树的步骤,包括:
根据所述待处理数据集以及预设定义规则,定义基本组分;
根据所述基本组分,确定基本组分序向量;
将所述基本组分序向量插入到多叉树的对应节点中,构建基本组分序向量树。


3.根据权利要求1所述的流形进化图构建方法,其特征在于,所述根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量的步骤,包括:
根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量和基本组分权重向量;
根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量和基本组分权重向量。


4.根据权利要求3所述的流形进化图构建方法,其特征在于,当所述主序列节点为蛋白质序列时,
所述与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的一个氨基酸突变/插入/删除而形成;
所述与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的二个氨基酸突变/插入/删除而形成。


5.根据权利要求3所述的流形进化图构建方法,其特征在于,当所述主序列节点为DNA/RNA序列时,
所述与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的一个碱基突变/插入/删除而形成;
所述与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的二个碱基突变/插入/...

【专利技术属性】
技术研发人员:田圃
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1