System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基因检测数据智能压缩处理方法技术_技高网
当前位置: 首页 > 专利查询>北华大学专利>正文

一种基因检测数据智能压缩处理方法技术

技术编号:39995892 阅读:14 留言:0更新日期:2024-01-09 02:45
本发明专利技术涉及基因检测数据处理技术领域,具体涉及一种基因检测数据智能压缩处理方法。方法包括:获取碱基质量分数序列;对碱基质量分数序列中的数据进行划分获得数据段以及数据段对应的子段;根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异、每个子段内所有数据的差异,确定每个数据段对应的一致指数;根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;基于一致指数和差异指数确定每个数据段对应的最优窗口长度,进而对碱基质量分数数据进行压缩。本发明专利技术提高了基因检测数据的压缩效率。

【技术实现步骤摘要】

本专利技术涉及基因检测数据处理,具体涉及一种基因检测数据智能压缩处理方法


技术介绍

1、基因检测是指对个体基因组的某些部分或全部进行测序、分析和解读,以识别可能存在的基因突变、变异,了解人体的遗传风险、疾病易感性以及其他与基因相关的特征,为临床诊断和治疗提供依据。基因测序得到的fastq文件中的碱基序列承载了生物体的遗传信息,这些信息指导细胞如何合成蛋白质,控制了细胞的发育、功能和行为,同时每个碱基数据在fastq文件中都伴随着一个质量分数值,用于表示所得碱基数据的可靠程度,这些数据对于判断测序结果的可靠性以及后续的基因检测处理非常重要。每次基因检测都将产生海量的碱基数据和对应的质量分数数据,因此对其进行智能压缩处理是很有必要的。

2、基因检测数据与其他待压缩数据有所区别,基因检测数据蕴含着大量生物学信息,需对其进行无损压缩。常见的无损压缩算法,如lz77数据压缩算法实现简单、适用性较强,但是算法窗口大小设置的不合理会对数据压缩效率造成较大影响,使得基因检测数据的压缩效率较低。


技术实现思路

1、为了解决现有方法在对基因检测数据进行压缩时算法窗口设置的不合理会使得基因检测数据的压缩效率较低的问题,本专利技术的目的在于提供一种基因检测数据智能压缩处理方法,所采用的技术方案具体如下:

2、本专利技术提供了一种基因检测数据智能压缩处理方法,该方法包括以下步骤:

3、获取待压缩基因的碱基质量分数序列;

4、对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段;基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段;根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数;

5、根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度;

6、基于所述最优窗口长度,采用lz77压缩算法对所有碱基质量分数数据进行压缩。

7、优选的,所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段,包括:

8、将所述碱基质量分数序列中所有数据按照前后顺序排序获取每个数据的序号,将所述序号作为横坐标,将对应的数据值作为纵坐标,获得各数据点;

9、采用dbscan聚类算法对所有数据点进行聚类,获得不少于两个聚类簇;将同一聚类簇内的数据点对应的数据作为同一数据段内的数据。

10、优选的,基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段,包括:

11、对所有数据点进行曲线拟合获得目标曲线;

12、在所述目标曲线上,获取每个数据段内的极值点;将所述极值点作为划分点,对每个数据段内的数据进行划分,获得每个数据段对应的子段。

13、优选的,所述根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数,包括:

14、对于第i个数据段对应的第j个子段:

15、将第j个子段内所有种数据值出现的频次的平均值记为第一平均值;将第j个子段内每种数据值出现的频次与所述第一平均值之间的差异的负相关归一化结果,记为第j个子段内每种数据值对应的频次特征值;将第j个子段内所有种数据值对应的频次特征值的均值,确定为第j个子段的数据分布指标;

16、根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标,计算第j个子段的离散系数。

17、优选的,采用如下公式计算第i个数据段对应的第j个子段的离散系数:

18、

19、其中,为第i个数据段对应的第j个子段的离散系数,为第i个数据段对应的第j个子段内的第个数据值,为第i个数据段对应的第j个子段内的第个数据值,为第i个数据段对应的第j个子段内的数据的数量,为第i个数据段对应的第j个子段的数据分布指标,为第i个数据段对应的第j个子段的最大数据值,为第i个数据段对应的第j个子段的最小数据值,e为自然常数。

20、优选的,所述根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数,包括:

21、对于第i个数据段:

22、对于第i个数据段对应的第j个子段:将第j个子段与除第j个子段外其他所有子段的离散系数的差异的均值,作为第j个子段的偏差指数;

23、根据第i个数据段对应的每个子段的偏差指数、第i个数据段对应的每个子段中所有数据的方差和第i个数据段中所有数据的信息熵,计算第i个数据段对应的一致指数。

24、优选的,采用如下公式计算第i个数据段对应的一致指数:

25、

26、其中,为第i个数据段对应的一致指数,为第i个数据段对应的子段的数量,为第i个数据段对应的第j个子段中所有数据的方差,为第i个数据段对应的第j个子段的偏差指数,为第i个数据段对应的所有子段的偏差指数的均值,为第i个数据段中所有数据的信息熵,e为自然常数,为预设第一调整参数,大于0。

27、优选的,根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数,包括:

28、对于第i个数据段:

29、将第i个数据段内所有种数据值出现的频次的平均值记为第二平均值;将第i个数据段内每种数据值出现的频次与所述第二平均值之间的差异的负相关归一化结果,记为第i个数据段内每种数据值对应的频次特征值;将第i个数据段内所有种数据值对应的频次特征值的均值,确定为第i个数据段的数据特征指标;

30、根据第i个数据段的数据特征指标、第i个数据段内所有数据的极差以及第i个数据段内相邻极值点之间的横坐标的差异,计算第i个数据段对应的差异指数。

31、优选的,采用如下公式计算第i个数据段对应的差异指数:

32、

33、其中,为第i个数据段对应的差异指数,为第i个数据段中的最大数据值,为第i个数据段中的最小数据值,为第i个数据段的数据特征指标,为第i个数据段中第个极值点的横坐标,为第i个数据段中第个极值点的横坐标,为第i个数据段中极值点的个数,为第i个数据段中数据的总个数,为预设第二调整参数,大于0。

34、优选的,所述基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度,包括:

35、对于第i个数据段:

36、计算第i个数据段对应的差异指数与预设第三调整参数的和值,对第i个数据段对应的一致指数与所述和值本文档来自技高网...

【技术保护点】

1.一种基因检测数据智能压缩处理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段,包括:

3.根据权利要求2所述的一种基因检测数据智能压缩处理方法,其特征在于,基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段,包括:

4.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数,包括:

5.根据权利要求4所述的一种基因检测数据智能压缩处理方法,其特征在于,采用如下公式计算第i个数据段对应的第j个子段的离散系数:

6.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数,包括:

7.根据权利要求6所述的一种基因检测数据智能压缩处理方法,其特征在于,采用如下公式计算第i个数据段对应的一致指数:

8.根据权利要求3所述的一种基因检测数据智能压缩处理方法,其特征在于,根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数,包括:

9.根据权利要求8所述的一种基因检测数据智能压缩处理方法,其特征在于,采用如下公式计算第i个数据段对应的差异指数:

10.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度,包括:

...

【技术特征摘要】

1.一种基因检测数据智能压缩处理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段,包括:

3.根据权利要求2所述的一种基因检测数据智能压缩处理方法,其特征在于,基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段,包括:

4.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数,包括:

5.根据权利要求4所述的一种基因检测数据智能压缩处理方法,其特征在于,采用如下公式计算第i个数据段对应的第j个子段的离散系数:

6.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所...

【专利技术属性】
技术研发人员:赵奇刘娇娇
申请(专利权)人:北华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1