一种基因蛋白质序列关系分析系统及方法技术方案

技术编号:8413286 阅读:268 留言:0更新日期:2013-03-14 02:13
本发明专利技术公开了本发明专利技术一种基因蛋白质序列关系分析系统及方法,系统包括:文件选择模块、序列文件分析模块、序列距离分析模块、MDS分析模块和结果显示模块。方法包括:通过选择要读取的文件,对序列文件进行分析,计算序列间的距离,得出距离关系矩阵,对距离关系矩阵进行分析,对分析的结果进行分类和显示。本发明专利技术一种基因蛋白质序列关系分析系统及方法可以根据需求选择合适的算法进行降维,从而避免损失必要的信息,能单独对序列背景信息进行挖掘和分类,并且提供了多种图形以及丰富的颜色供用户自由选择,从而能更好更直观地显示序列的背景信息。本发明专利技术作为一种基因蛋白质序列关系分析系统及方法应用于生物技术领域。

【技术实现步骤摘要】

本专利技术涉及生物
,尤其涉及。
技术介绍
由于生物数据的复杂性和高维性,既不能以数字公式表示,也不能以逻辑公式表示,故对这些序列的研究大多是基于统计工具。此外,通过数据的可视化,帮助人们认识和理解生物序列,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律,为科学发现提供依据。所以,现在很多学者都开始借助各种可视化工具,以图、树、方体、链的形式展现其复杂结构和序列模式,以求直观地表达生物序列的理论结构与区另O。同时,将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户,便于用户寻找数据间的规律和关系。序列的背景信息对于研究序列的进化关系与分类非常关键。然而,目前的工具,均不能利用序列的背景信息和自由选择分析的算法,导致结果的分析与解释不容易进行。而且显示结果只能以一种颜色的方式来表现,用户不能任意改变颜色设 置,对用户造成极大的不便。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种能自由选择分析算法,并且能更直观地显示结果的一种基因蛋白质序列关系分析系统。本专利技术的另一个目的是提供一种能自由选择分析算法,并且能更直观地显示结果的一种基因蛋白质序列关系分析方法。本专利技术所采用的技术方案是 一种基因蛋白质序列关系分析系统,包括 文件选择模块,用于选择要读取的文件; 序列文件分析模块,用于对序列文件进行分析; 序列距离分析模块,用于计算序列间的距离,得出距离关系矩阵; MDS分析模块,用于对距离关系矩阵进行分析; 结果显示模块,用于对分析的结果进行分类和显示。作为所述的一种基因蛋白质序列关系分析系统的进一步改进,所述的序列文件分析模块包括 文件读取模块,用于读取序列文件; 头文件分析模块,用于将头文件存入数据结构,并对其进行分隔; 字段选择模块,用于选择后续结果显示时需要的字段。作为所述的一种基因蛋白质序列关系分析系统的进一步改进,所述的MDS分析模块包括 算法选择模块,用于选择要调用的算法; 降维模块,用于对距离关系矩阵进行降维。作为所述的一种基因蛋白质序列关系分析系统的进一步改进,所述的结果显示模块包括 标识选择模块,用于选择标识的形状和颜色; 序列显示模块,用于以选择的形状和颜色标识出各个序列在二维坐标系中的位置; 序列分类模块,用于对序列进行分类。本专利技术所采用的另一个技术方案是 一种基因蛋白质序列关系分析方法,包括以下步骤 A、选择要读取的文件; B、对序列文件进行分析; C、计算序列间的距离,得出距离关系矩阵; D、对距离关系矩阵进行分析; E、对分析的结果进行分类和显示。作为所述的一种基因蛋白质序列关系分析方法的进一步改进,所述的步骤B包括 BI、读取序列文件; B2、将头文件存入数据结构,并对其进行分隔; B3、选择后续结果显示时需要的字段。作为所述的一种基因蛋白质序列关系分析方法的进一步改进,所述的步骤D包括 D1、选择要调用的算法; D2、对距离关系矩阵进行降维。作为所述的一种基因蛋白质序列关系分析方法的进一步改进,所述的步骤E包括 E1、选择标识的形状和颜色; E2、以选择的形状和颜色标识出各个序列在二维坐标系中的位置; E3、对序列进行分类。本专利技术的有益效果是 本专利技术一种基因蛋白质序列关系分析系统,通过文件选择模块、序列文件分析模块、序列距离分析模块、MDS分析模块和结果显示模块,选择要读取的文件,对序列文件进行分析,计算序列间的距离,得出距离关系矩阵,对距离关系矩阵进行分析,对分析的结果进行分类和显示,使得用户可以根据需求选择合适的算法进行降维,从而避免损失必要的信息,能单独对序列背景信息进行挖掘和分类,并且提供了多种图形以及丰富的颜色供用户自由选择,从而能更好更直观地显示序列的背景信息。本专利技术的另一个有益效果是 本专利技术一种基因蛋白质序列关系分析方法,通过选择要读取的文件,对序列文件进行分析,计算序列间的距离,得出距离关系矩阵,对距离关系矩阵进行分析,对分析的结果进行分类和显示。本专利技术一种基因蛋白质序列关系分析方法可以根据需求选择合适的算法进行降维,从而避免损失必要的信息,能单独对序列背景信息进行挖掘和分类,并且提供了多种图形以及丰富的颜色供用户自由选择,从而能更好更直观地显示序列的背景信息。附图说明下面结合附图对本专利技术的具体实施方式作进一步说明 图I是本专利技术本专利技术一种基因蛋白质序列关系分析系统的模块方框 图2是本专利技术一种基因蛋白质序列关系分析系统的实施例一的模块方框 图3是本专利技术一种基因蛋白质序列关系分析系统的实施例二的模块方框 图4是本专利技术一种基因蛋白质序列关系分析系统的实施例三的模块方框 图5是本专利技术一种基因蛋白质序列关系分析方法的步骤流程图; 图6是本专利技术一种基因蛋白质序列关系分析方法步骤B实施例一的步骤流程 图7是本专利技术一种基因蛋白质序列关系分析方法步骤D实施例二的步骤流程 图8是本专利技术一种基因蛋白质序列关系分析方法步骤E实施例三的步骤流程图。具体实施例方式图I是本专利技术本专利技术一种基因蛋白质序列关系分析系统的模块方框图,系统包括文件选择模块,用于选择要读取的文件;序列文件分析模块,用于对序列文件进行分析;序列距离分析模块,用于计算序列间的距离,得出距离关系矩阵;MDS分析模块,用于对距离关系矩阵进行分析;结果显示模块,用于对分析的结果进行分类和显示。图2是本专利技术一种基因蛋白质序列关系分析系统的实施例一的模块方框图,其中所述的序列文件分析模块包括文件读取模块,用于读取序列文件;头文件分析模块,用于将头文件存入数据结构,并对其进行分隔;字段选择模块,用于选择后续结果显示时需要的字段。图3是本专利技术一种基因蛋白质序列关系分析系统的实施例二的模块方框图,其中所述的MDS分析模块包括算法选择模块,用于选择要调用的算法;降维模块,用于对距离关系矩阵进行降维。图4是本专利技术一种基因蛋白质序列关系分析系统的实施例三的模块方框图,其中所述的结果显示模块包括标识选择模块,用于选择标识的形状和颜色;序列显示模块,用于以选择的形状和颜色标识出各个序列在二维坐标系中的位置;序列分类模块,用于对序列进行分类。图5是本专利技术一种基因蛋白质序列关系分析方法的步骤流程图,结合图5,本专利技术作为一种基因蛋白质序列关系分析方法,包括以下步骤 A、选择要读取的文件; B、对序列文件进行分析; C、计算序列间的距离,得出距离关系矩阵; D、对距离关系矩阵进行分析; E、对分析的结果进行分类和显示。优选地,计算序列间的距离是通过一位一位的比较,然后计算总的相同的位置的值完全相同的位数,除以两个序列比对的长度,如果两个序列长度不一致,则选取序列长度最短的序列的长度值作为比对长度,得到的百分比就是两个序列的距离。通过调用这个序列距离分析方法,比对每个序列间的相似程度,就可以得到一个N*N的相似度的距离关系矩阵。图6是本专利技术一种基因蛋白质序列关系分析方法步骤B实施例一的步骤流程图,所述的步骤B包括 BI、读取序列文件; B2、将头文件存入数据结构,并对其进行分隔; B3、选择后续结果显示时需要的字段。读取序列文件后,遇到以“〉”开头的头文件部分,则存入头文件数据结构中。用户在系统界本文档来自技高网...

【技术保护点】
一种基因蛋白质序列关系分析系统,其特征在于,包括:文件选择模块,用于选择要读取的文件;序列文件分析模块,用于对序列文件进行分析;序列距离分析模块,用于计算序列间的距离,得出距离关系矩阵;MDS分析模块,用于对距离关系矩阵进行分析;结果显示模块,用于对分析的结果进行分类和显示。

【技术特征摘要】

【专利技术属性】
技术研发人员:史卫峰柏佳宁李先斌凌诚郭雪平郑为民黄锡鸿
申请(专利权)人:广州中国科学院先进技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1