【技术实现步骤摘要】
一种流形进化图构建方法、装置、设备及可存储介质
本专利技术属于数据处理
,尤其涉及一种流形进化图构建方法、装置、设备及可存储介质。
技术介绍
理清复杂高维空间非线性强关联对象/数据(例如生物学序列,生物大分子结构,图片,文本,音视频等)之间的关系是目前人工智能技术不能有效解决但亟待克服的挑战。维度之间的强关联使得这些数据实际存在于远低于名义维度的相对低维流形空间中。常用的各种距离表征手段(如欧式距离(EuclideanDistance)、曼哈顿距离(ManhattanDistance)、马氏距离(MahalanobisDistance)、明可夫斯基距离(MinkowskiDistance)、切比雪夫距离(ChebyshevDistance)、生物学序列同一性(biologicalsequenceidentity)等)都是在名义高维空间直接进行的计算,一般仅当名义高维空间中的距离很小时会趋近流形空间距离,而在其他很多情况下往往是无效的。所有复杂高维非线性强关联数据都有类似困难,不同数据记录/对象之间有物理意义的距 ...
【技术保护点】
1.一种流形进化图构建方法,其特征在于,包括:/n获取待处理数据集;/n根据所述待处理数据集,构建基本组分序向量树;所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量;/n根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量;/n当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量,在所述基本组分序向量树中查找到所述候选序列节点时,则对对应的近邻关系进行相互标注;/n根据所述主序列节点以及近邻关系,构建流形进化图。/n
【技术特征摘要】
1.一种流形进化图构建方法,其特征在于,包括:
获取待处理数据集;
根据所述待处理数据集,构建基本组分序向量树;所述基本组分序向量树包括至少一个主序列节点以及所述主序列节点的基本组分序向量和基本组分权重向量;
根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量;
当根据所述不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量,在所述基本组分序向量树中查找到所述候选序列节点时,则对对应的近邻关系进行相互标注;
根据所述主序列节点以及近邻关系,构建流形进化图。
2.根据权利要求1所述的流形进化图构建方法,其特征在于,所述根据所述待处理数据集,构建基本组分序向量树的步骤,包括:
根据所述待处理数据集以及预设定义规则,定义基本组分;
根据所述基本组分,确定基本组分序向量;
将所述基本组分序向量插入到多叉树的对应节点中,构建基本组分序向量树。
3.根据权利要求1所述的流形进化图构建方法,其特征在于,所述根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点不同近邻关系的候选序列节点的基本组分序向量和基本组分权重向量的步骤,包括:
根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量和基本组分权重向量;
根据所述主序列节点的基本组分序向量和基本组分权重向量,确定与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量和基本组分权重向量。
4.根据权利要求3所述的流形进化图构建方法,其特征在于,当所述主序列节点为蛋白质序列时,
所述与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的一个氨基酸突变/插入/删除而形成;
所述与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的二个氨基酸突变/插入/删除而形成。
5.根据权利要求3所述的流形进化图构建方法,其特征在于,当所述主序列节点为DNA/RNA序列时,
所述与所述主序列节点一级相邻的一级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的一个碱基突变/插入/删除而形成;
所述与所述主序列节点二级相邻的二级候选序列节点的基本组分序向量为由所述主序列节点的基本组分序向量中的二个碱基突变/插入/...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。