当前位置: 首页 > 专利查询>韶关学院专利>正文

一种基于生物数据的数据分析方法技术

技术编号:20820009 阅读:21 留言:0更新日期:2019-04-10 05:57
本发明专利技术公开了一种基于生物数据的数据分析方法,包括:获取生物数据,建立样本数据库;对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;提取所述聚类库中的数据建立高维模型;将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据;本发明专利技术通过对生物数据进行聚类处理,结合数据模型剔除错误的生物数据,解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,提高实验成功率;对生物数据进行聚类处理,能从海量数据中快速查找出所需数据的所在类群,提高工作效率。

【技术实现步骤摘要】
一种基于生物数据的数据分析方法
本专利技术涉及数据分析领域,尤其涉及一种基于生物数据的数据分析方法。
技术介绍
在对生物研究中,需要对生物数据进行实验处理,但由于生物数据的量非常大,我们往往在海量大数据中寻找符合实验要求的生物数据,这样会极大地降低工作效率,影响实验进度;再加上海量数据的复杂性,还会存在提取到错误数据的可能性,影响实验结果。正因如此,目前极需一种可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据的分析处理方法。
技术实现思路
本专利技术提供了一种基于生物数据的数据分析方法,以解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,进而实现提高工作效率和实验成功率。为了解决上述技术问题,本专利技术实施例提供了一种基于生物数据的数据分析方法,包括:获取生物数据,建立样本数据库;对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;提取所述聚类库中的数据建立高维模型;将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据。作为优选方案,所述对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库,包括:提取所述样本数据库中的生物数据,使用统计方法将各个生物数据进行分析提取概念关键词;利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类;建立聚类库,将形成的所有聚类储存在聚类库中。作为优选方案,所述统计方法包括:串频统计方法和信息熵统计方法。作为优选方案,所述利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类,包括:将提取出来的每一个概念关键词单独列成一个类;利用相似度算法计算类与类之间的相似度;将计算出相似度大的类合并成一个聚类,直到所有单独列成的类完成合并;对已经完成合并的聚类继续执行上述步骤,继续进行聚类间合并,直至形成一个具有等级关系的聚类。作为优选方案,所述相似度算法包括Dice系数和皮尔逊相关性公式。作为优选方案,所述提取所述聚类库中的数据建立高维模型,包括:建立训练数据库和测试数据库,将聚类库中的数据分别储存到所述训练数据库和所述测试数据库;建立高维模型,将所述训练数据库中数据传输到高维模型中进行训练;数据训练完成后,将所述测试数据库中数据传输到高维模型中进行测试,获得经过优化处理后的高维模型。作为优选方案,所述将所述训练数据库中数据传输到高维模型中进行训练,还包括:当训练的次数达到训练阈值或训练的准确度达到预设的训练准确值后,停止训练;所述将所述测试数据库中数据传输到高维模型中进行测试,还包括:当测试的次数达到测试阈值或测试的准确度达到预设的测试准确值后,停止测试。作为优选方案,所述训练阈值为20万次,所述训练准确值为90%;所述测试阈值为20万次,所述测试准确值为90%。作为优选方案,所述基于生物数据的数据分析方法,还包括:建立数据格式池,将生物数据通过所述格式池进行过滤,剔除错误格式的生物数据。作为优选方案,所述数据格式池包括数字格式、图片格式、字符格式和算法字符。相比于现有技术,本专利技术实施例具有如下有益效果:通过对生物数据进行聚类处理,结合数据模型剔除错误的生物数据,解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,提高实验成功率;对生物数据进行聚类处理,能从海量数据中快速查找出所需数据的所在类群,提高工作效率。附图说明图1:为本专利技术方法实施例中的步骤流程示意图;图2:为本专利技术方法实施例中的步骤S2的具体流程示意图;图3:为本专利技术方法实施例中的步骤S22的具体流程示意图;图4:为本专利技术方法实施例中的步骤S3的具体流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参照图1,本专利技术优选实施例提供了一种基于生物数据的数据分析方法,包括:S1,获取生物数据,建立样本数据库;S2,对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;S3,提取所述聚类库中的数据建立高维模型;S4,将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据。本实施例通过对生物数据进行聚类处理,结合数据模型剔除错误的生物数据,解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,进而实现提高工作效率和实验成功率。请参照图2,在本实施例中,所述步骤S2对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库,包括:S21,提取所述样本数据库中的生物数据,使用统计方法将各个生物数据进行分析提取概念关键词;S22,利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类;S23,建立聚类库,将形成的所有聚类储存在聚类库中。在本实施例中,所述统计方法包括:串频统计方法和信息熵统计方法。串频(Frequency):被称为常用的一种统计方法,是通过词出现的频度并统计以抽取术语,实现起来直接、简单。尤其是那些固定的生物高维数据,通过出现频率来抽取,效果非常好。同时,如果配合一些数据过滤器,那么效果会更好。信息熵(Entropy):在实际的情况中,每种可能情况出现的概率并不是相同的,所以信息熵用来描述信息的不确定性,如果不确定性越高,那么信息熵越大,否则则越低。pi表示高维数据i出现的概率。越是确定的情况,不确定性越小,信息量越少,即计算出的熵就越小。请参照图3,在本实施例中,所述步骤S22利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类,包括:S221,将提取出来的每一个概念关键词单独列成一个类;S222,利用相似度算法计算类与类之间的相似度;S223,将计算出相似度大的类合并成一个聚类,直到所有单独列成的类完成合并;S224,对已经完成合并的聚类继续执行上述步骤,继续进行聚类间合并,直至形成一个具有等级关系的聚类。本技术方案采取基于生物数据的等级提取方法来确定概念间的层次关系,利用层次聚类算法生成等级关系。这种方法首先将每一个数据单独列成一个类,然后计算两两类之间的相似度,相似度大的聚成一类,以此内推,形成一个循环,最终形成一个具有等级关系的聚类图。该算法中有两个方面比较重要,第一个是关于相似度的算法问题,第二个是关于聚类的方法问题。对于相似度的算法,采用Dice系数、皮尔逊相关性公式等来计算。关于聚类的方法,我们求两个聚类簇里两类之间的距离的平均值作为两个聚类簇的相似度。即,将两个聚类里的所有类都进行相似度的计算,然后计算其平均值,该相似度的平均值即为两个聚类簇的距离。在本实施例中,所述相似度算法包括Dice系数和皮尔逊相关性公式。Dice系数算法:Dice(s1本文档来自技高网...

【技术保护点】
1.一种基于生物数据的数据分析方法,其特征在于,包括:获取生物数据,建立样本数据库;对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;提取所述聚类库中的数据建立高维模型;将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据。

【技术特征摘要】
1.一种基于生物数据的数据分析方法,其特征在于,包括:获取生物数据,建立样本数据库;对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;提取所述聚类库中的数据建立高维模型;将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据。2.如权利要求1所述的方法,其特征在于,所述对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库,包括:提取所述样本数据库中的生物数据,使用统计方法将各个生物数据进行分析提取概念关键词;利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类;建立聚类库,将形成的所有聚类储存在聚类库中。3.如权利要求2所述的方法,其特征在于,所述统计方法包括:串频统计方法和信息熵统计方法。4.如权利要求2所述的方法,其特征在于,所述利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类,包括:将提取出来的每一个概念关键词单独列成一个类;利用相似度算法计算类与类之间的相似度;将计算出相似度大的类合并成一个聚类,直到所有单独列成的类完成合并;对已经完成合并的聚类继续执行上述步骤,继续进行聚类间合并,直至形成一个具有等级关系的聚类。5.如权利要求4所述的方...

【专利技术属性】
技术研发人员:黄海辉戴经国梁勇陈燕琴
申请(专利权)人:韶关学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1