一种流形进化图构建方法、装置、设备及可存储介质制造方法及图纸

技术编号：26691854 阅读：75 留言：0更新日期：2020-12-12 02:44

本发明专利技术适用数据处理技术领域，提供流形进化图构建方法、装置、设备及可存储介质，包括：构建基本组分序向量树；基本组分序向量树包括至少一个主序列节点及主序列节点的基本组分序向量和权重向量；根据主序列节点的基本组分序向量和权重向量，确定与主序列节点不同近邻关系的候选序列节点的基本组分序向量和权重向量；当根据候选序列节点的基本组分序向量和权重向量，在基本组分序向量树中查找到候选序列节点时，则对对应的近邻关系进行标注；根据主序列节点以及近邻关系，构建流形进化图。本发明专利技术中序列节点间的关系通过流形空间近邻关系得到，计算量小，可靠性高，可实现任意大规模复杂高维非线性强关联数据的进化关系分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种流形进化图构建方法、装置、设备及可存储介质
本专利技术属于数据处理
，尤其涉及一种流形进化图构建方法、装置、设备及可存储介质。
技术介绍
理清复杂高维空间非线性强关联对象/数据（例如生物学序列，生物大分子结构，图片，文本，音视频等）之间的关系是目前人工智能技术不能有效解决但亟待克服的挑战。维度之间的强关联使得这些数据实际存在于远低于名义维度的相对低维流形空间中。常用的各种距离表征手段（如欧式距离（EuclideanDistance）、曼哈顿距离（ManhattanDistance）、马氏距离（MahalanobisDistance）、明可夫斯基距离（MinkowskiDistance）、切比雪夫距离（ChebyshevDistance)、生物学序列同一性（biologicalsequenceidentity）等）都是在名义高维空间直接进行的计算，一般仅当名义高维空间中的距离很小时会趋近流形空间距离，而在其他很多情况下往往是无效的。所有复杂高维非线性强关联数据都有类似困难，不同数据记录/对象之间有物理意义的距...

【技术保护点】
1.一种流形进化图构建方法，其特征在于，包括：/n获取待处理数据集；/n根据所述待处理数据集，构建基本组分序向量树；所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量；/n根据所述主序列节点的基本组分序向量和基本组分权重向量，确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量；/n当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量，在所述基本组分序向量树中查找到所述候选序列节点时，则对对应的近邻关系进行相互标注；/n根据所述主序列节点以及近邻关系，构建流形进化图。/n

【技术特征摘要】
1.一种流形进化图构建方法，其特征在于，包括：
获取待处理数据集；
根据所述待处理数据集，构建基本组分序向量树；所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量；
根据所述主序列节点的基本组分序向量和基本组分权重向量，确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量；
当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量，在所述基本组分序向量树中查找到所述候选序列节点时，则对对应的近邻关系进行相互标注；
根据所述主序列节点以及近邻关系，构建流形进化图。

2.根据权利要求1所述的流形进化图构建方法，其特征在于，所述根据所述待处理数据集，构建基本组分序向量树的步骤，包括：
根据所述待处理数据集以及预设定义规则，定义基本组分；
根据所述基本组分，确定基本组分序向量；
将所述基本组分序向量插入到多叉树的对应节点中，构建基本组分序向量树。

3.根据权利要求1所述的流形进化图构建方法，其特征在于，所述根据所述主序列节点的基本组分序向量和基本组分权重向量，确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量的步骤，包括：
根据所述主序列节点的基本组分序向量和基本组分权重向量，确定与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量和基本组分权重向量；
根据所述主序列节点的基本组分序向量和基本组分权重向量，确定与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量和基本组分权重向量。

4.根据权利要求3所述的流形进化图构建方法，其特征在于，当所述主序列节点为蛋白质序列时，
所述与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的一个氨基酸突变/插入/删除而形成；
所述与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的二个氨基酸突变/插入/删除而形成。

5.根据权利要求3所述的流形进化图构建方法，其特征在于，当所述主序列节点为DNA/RNA序列时，
所述与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的一个碱基突变/插入/删除而形成；
所述与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的二个碱基突变/插入/...

【专利技术属性】
技术研发人员：田圃，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人