【技术实现步骤摘要】
基于标准熵的局部敏感哈希的DNA序列聚类
本专利技术涉及生物信息处理领域,尤其涉及基于标准熵的局部敏感哈希的DNA序列聚类。
技术介绍
随着互联网时代的到来和信息技术的发展,基因测序技术发展地愈发成熟,加之各项基因项目的开展,生物数据的数量呈暴增式增长,传统的方法已经无法满足海量的数据处理分析。生物信息学是指将生物学与计算机技术结合,与数学学科交互,获取生物信息对其加工、提取、分析、存储等,挖掘遗传物质的位置信息。数据挖掘技术是一种能从大量数据中提取有用的、潜在的有效信息的技术。数据挖掘中的聚类能将具有某些相同特征的序列聚集在一起,更好的分析数据的功能或结构,从已知的功能和结构的序列探索出未知序列的有效信息是具有极大意义的。现有的序列聚类方法存在很多的缺陷。基于划分的K-medoid算法、基于层次的全连接(complete-link)算法,这些传统聚类算法,需要对序列进行两两比对,时间复杂度高,如今的DNA序列数量增长极快,传统算法无法应用于海量数据中。K-means算法需要确定聚类个数,序列数据的质心也不易计算,初始聚类中心随机使得聚类结果不稳定,应用到生物序列 ...
【技术保护点】
基于标准熵的局部敏感哈希的DNA序列聚类,其特征在于:其包括以下步骤:(1)采用第二代测序技术对整条待测序列进行测序,得到一批DNA短片段,每一个短片段称为DNA片段序列;(2)DNA片段序列中的字母集合为{A、C、G、T},|∑|表示该字母集合中字母的个数,初始化待处理字的字长大小L,对DNA片段序列使用固定长度的滑动窗口获得待处理字Y集合,待处理字Y集合中待处理字Y的个数为|∑|
【技术特征摘要】
1.基于标准熵的局部敏感哈希的DNA序列聚类,其特征在于:其包括以下步骤:(1)采用第二代测序技术对整条待测序列进行测序,得到一批DNA短片段,每一个短片段称为DNA片段序列;(2)DNA片段序列中的字母集合为{A、C、G、T},|∑|表示该字母集合中字母的个数,初始化待处理字的字长大小L,对DNA片段序列使用固定长度的滑动窗口获得待处理字Y集合,待处理字Y集合中待处理字Y的个数为|∑|L,根据每个待处理字的位置信息Xt计算其熵值h;所述待处理字的位置信息Xt是指待处理字在DNA片段序列中两次出现时对应的两个位置间的距离的倒数;其中,Y表示待处理字,t表示待处理字出现的位置顺序,LFtY表示待处理字Y的第t次出现在DNA片段序列的位置,Yλ表示第λ个预处理字;λ表示待处理字的编号;z代表待处理字出现的频数;P[t]为离散概率P的第t个离散概率,即为部分和St占总和Z比的离散概率;部分和St表示位置信息Xt之和,St=X1+X2+...+Xt;总和Z=S1+S2+...+Sn;(3)计算特征向量:将熵值使用公式标准化得到标准熵值HLF作为哈希函数的特征变量,标准熵值HLF的计算公式如下:h(Yλ)是字Yλ的熵,z代表待处理字出现的频数;(...
【专利技术属性】
技术研发人员:江育娥,徐彭娜,林劼,
申请(专利权)人:福建师范大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。