一种联合显微图像和RNA的空间组学数据压缩和传输方法技术

技术编号:37406910 阅读:11 留言:0更新日期:2023-04-30 09:33
本发明专利技术公开了一种联合显微图像和RNA的空间组学数据压缩和传输方法,包括以下步骤;步骤1:对显微图像进行分割,得出有效蒙版图像和有效RNA序列;步骤2:使用图像中的颜色对RNA序列进行聚类;步骤3:对RNA序列和显微图像进行压缩,得到需要传输的数据;步骤4:对需要传输的数据进行分块和多层摘要计算;步骤5:通过自适应通道进行网络数据传输。本发明专利技术具有数据压缩率高,传输过程稳定可靠的特点,能够达到减小存储和高效传输的目的。小存储和高效传输的目的。小存储和高效传输的目的。

【技术实现步骤摘要】
一种联合显微图像和RNA的空间组学数据压缩和传输方法


[0001]本专利技术属于空间组学数据压缩和传输
,具体涉及一种联合显微图像和RNA的空间组学数据压缩和传输方法。

技术介绍

[0002]现有的空间组学数据压缩算法还是将带有空间位置信息的RNA序列当作传统的单细胞测序数据进行压缩,只利用了单个细胞的RNA序列的相关性进行数据压缩,完全没有考虑在空间组学数据的空间冗余性。
[0003]在网络传输方面目前主要依赖http和ftp协议进行网络信息传输,以上两种协议都可以在网络状态和中小文件发送中稳定的传输,可以保证网络中大部分数据的传输。同时Aspera等软件也提供大文件传输和流式处理解决方案。但是在传输的过程中经常会遇到安全性和稳定性的问题,同时在高延迟和高丢包率的网络状态下无法保证高效的网络传输。同时在完整性校验的过程中通常使用单文件的MD5摘要信息校验。
[0004]针对空间组学数据压缩算法,目前还没有针对空间组学数据的专用压缩算法,目前都是使用单细胞测序的压缩算法进行压缩,没有更好的利用空间组学中位置信息对数据进行进一步的压缩,同时现有的算法对于所有的数据都进行压缩,对图像中可见的无效数据没有剔除。因此也导致现有的压缩算法的压缩率低且压缩了部分无效数据,同时也给文件存储和传输带来了巨大的压力。本专利技术中利用显微图像中的额外信息对RNA需要的有效性进行分析和筛选,同时对不同的RNA序列进行分类,提高RNA序列文件的冗余性,使得熵编码器可以更好的对RNA序列进行编码和压缩,有效的提高压缩的效率。
[0005]对于目前的常用的http和ftp传输协议,设计的主要目的都是为了面对互联网中较小数据进程传输,在传输大文件的过程中通常会出现稳定性不足和小概率出错的情况。同时以上两种协议都是基于TCP协议,对于在高延迟和高丢包的弱网络或跨国网络中,对于带宽的利用率交底。对于Aspera等网络传输工具,这些工具的主要使用场景都是点对点的文件传输,并且无法自定义传输时的压缩方式和完整性校验方式,而且在传输的过程中需要使用第三方公司的服务器,对于高度机密的空间组学数据无法时刻保护数据的安全性和稳定性。
[0006]传统的单文件完整性检测主要依靠MD5摘要方式,通常对于一个较大的文件只能使用一个线程进行所有的计算,通常会消耗较长的时间,而且一旦校验失败后需要再次传输整个文件,造成不必要的传输带宽浪费。

技术实现思路

[0007]为了克服上述现有技术存在的不足,本专利技术的目的在于提供一种联合显微图像和RNA的空间组学数据压缩和传输方法,具有数据压缩率高,传输过程稳定可靠的特点,能够达到减小存储和高效传输的目的。
[0008]为了实现上述目的,本专利技术采用的技术方案是:
[0009]一种联合显微图像和RNA的空间组学数据压缩和传输方法,包括以下步骤;
[0010]步骤1:对显微图像进行分割,得出有效蒙版图像和有效RNA序列;
[0011]步骤2:使用图像中的颜色对RNA序列进行聚类;
[0012]步骤3:对RNA序列和显微图像进行压缩,得到需要传输的数据;
[0013]步骤4:对需要传输的数据进行分块和多层摘要计算;
[0014]步骤5:通过自适应通道进行网络数据传输。
[0015]所述步骤1具体为:
[0016]1)对显微图像进行灰度化处理;
[0017]输入显微图像I1,并对于显微图像采用加权平均法的灰度化的预处理后得到灰度图像I2,对于显微图像中的每个像素点的三个通道的值相同,并用统一的灰度值替代,将三个通道的通道值进行加权,实际中使用的公式为:
[0018]I2(x,y)=w
r
R(x,y)+w
g
G(x,y)+w
b
B(x,y)
[0019]其中R(x,y)为红色像素点,G(x,y)为绿色像素点,B(x,y)为蓝色像素点,对应的w
r
为红色像素点所占权重,w
g
为绿色像素点所占权重,w
b
为蓝色像素点所占权重;
[0020]2)对灰度图像I2采用OTSU分割算法进行前后景的分离,得到蒙版图像I3;
[0021]使用OTSU算法对I2灰度图像处理得到方差最大的灰度阈值作为L,L为图像中亮度方差最大的灰度值,对于灰度值小于L的像素点作为背景图像I3,对于灰度值大于等于L的像素点作为目标蒙版图像I4,对蒙版图像数据I4的冗余性考虑,使用优化后的阈值L2,所述L2=L+5,用于分离生物组织的前后景;
[0022]3)对蒙版图像I4进行开闭运算和膨胀操作;
[0023]在生物组织切片的过程中,生物组织会产生细小的组织结构,造成微小结构无法采集有效的图像,同时在组织染色过程中会出现染色不均匀的情况,会造成一部分生物组织没有被染色从而被当作背景图像I3,在使用阈值分割算法的时候,会产生一些毛刺和很小的空隙K在目标蒙版图像I4中,为保证在阈值分割中的目标蒙版图像I4能够完整的覆盖所有的生物切片组织,对图像进行闭运算得到闭运算蒙版图像其中Kernal为全1的5*5的矩阵,闭运算填平像素中的毛刺和很小的空袭K而其他像素的位置和形状不变,对于闭运算蒙版图像I5的内部已经充分的覆盖生物组织,对于整个组织的边界考虑空间冗余性,因此还需要对闭运算蒙版图像I5经过膨胀操作产生蒙版图像其中Kernal为全1的5*5的矩阵,对蒙版图像的像素点进行进一步的外扩,保证所有的边缘微结构都可以包含在蒙版图像I6中。
[0024]4)对RNA序列按照蒙版图像I6进行过滤
[0025]输入空间组学RNA序列S1,S1中每条数据都包含I6图像中的对应坐标X和Y,筛选整个S1数据并将蒙版外对应的数据删除留下有效数据S2;
[0026]所述RNA序列中包含很多read,其中read为组成RNA的最小序列,在一段read中包含采集时的X,Y坐标信息,对应显微图像I1中像素点坐标的X,Y,由于在上述步骤中没有发生图像大小变换,因此蒙版图像I6和显微图像I1的X,Y坐标相互对应,蒙版图像I6中值为1的像素点所对应read序列集合即为有效RNA序列S2,S2={read|read∈S1^(read.x,read.y)∈
I6}其中read为输入RNA序列S1的最小序列。
[0027]所述步骤2具体为:
[0028]首先得到有效的彩色的显微图像I7=I1∪I6,即为原始彩色显微图像和蒙版图像I6的交集为有效彩色显微图像I7;
[0029]使用bi

kmeans算法对有效彩色显微图像I7中的像素点颜色进行聚类分析,将I7像素点分为N个种类,在此基础上将有效RNA序列S2分为N个种类,使用bi

kmeans算法能够解决聚类后的结果陷入局部最优的缺陷,具体的bi

kmeans算法步骤:
[0030]1)创建n个点作为初始的质心(通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,包括以下步骤;步骤1:对显微图像进行分割,得出有效蒙版图像和有效RNA序列;步骤2:使用图像中的颜色对RNA序列进行聚类;步骤3:对RNA序列和显微图像进行压缩,得到需要传输的数据;步骤4:对需要传输的数据进行分块和多层摘要计算;步骤5:通过自适应通道进行网络数据传输。2.根据权利要求1所述的一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,所述步骤1具体为:1)对显微图像进行灰度化处理;输入显微图像I1,并对于显微图像采用加权平均法的灰度化的预处理后得到灰度图像I2,对于显微图像中的每个像素点的三个通道的值相同,并用统一的灰度值替代,将三个通道的通道值进行加权,实际中使用的公式为:I2(x,y)=w
r
R(x,y)+w
g
G(x,y)+w
b
B(x,y)其中R(x,y)为红色像素点,G(x,y)为绿色像素点,B(x,y)为蓝色像素点,对应的w
r
为红色像素点所占权重,w
g
为绿色像素点所占权重,w
b
为蓝色像素点所占权重;2)对灰度图像I2采用OTSU分割算法进行前后景的分离,得到蒙版图像I3;使用OTSU算法对I2灰度图像处理得到方差最大的灰度阈值作为L,L为图像中亮度方差最大的灰度值,对于灰度值小于L的像素点作为背景图像I3,对于灰度值大于等于L的像素点作为目标蒙版图像I4,对蒙版图像数据I4的冗余性考虑,使用优化后的阈值L2,所述L2=L+5,用于分离生物组织的前后景;3)对蒙版图像I4进行开闭运算和膨胀操作;在生物组织切片的过程中,生物组织会产生细小的组织结构,造成微小结构无法采集有效的图像,同时在组织染色过程中会出现染色不均匀的情况,会造成一部分生物组织没有被染色从而被当作背景图像I3,在使用阈值分割算法的时候,会产生一些毛刺和很小的空隙K在目标蒙版图像I4中,为保证在阈值分割中的目标蒙版图像I4能够完整的覆盖所有的生物切片组织,对图像进行闭运算得到闭运算蒙版图像其中Kernal为全1的5*5的矩阵,闭运算填平像素中的毛刺和很小的空袭K而其他像素的位置和形状不变,对于闭运算蒙版图像I5的内部已经充分的覆盖生物组织,对于整个组织的边界考虑空间冗余性,对闭运算蒙版图像I5经过膨胀操作产生蒙版图像其中Kernal为全1的5*5的矩阵,对蒙版图像的像素点进行进一步的外扩,保证所有的边缘微结构都可以包含在蒙版图像I6中。4)对RNA序列按照蒙版图像I6进行过滤输入空间组学RNA序列S1,S1中每条数据都包含I6图像中的对应坐标X和Y,筛选整个S1数据并将蒙版外对应的数据删除留下有效数据S2;所述RNA序列中包含很多read,其中read为组成RNA的最小序列,在一段read中包含采集时的X,Y坐标信息,对应显微图像I1中像素点坐标的X,Y,由于在上述步骤中没有发生图像大小变换,因此蒙版图像I6和显微图像I1的X,Y坐标相互对应,蒙版图像I6中值为1的像素
点所对应read序列集合即为有效RNA序列S2,S2={read|read∈S1^(read.x,read.y)∈I6}其中read为输入RNA序列S1的最小序列。3.根据权利要求1所述的一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,所述步骤2具体为:首先得到有效的彩色的显微图像I7=I1∪I6,即为原始彩色显微图像和蒙版图像I6的交集为有效彩色显微图像I7;使用bi

kmeans算法对有效彩色显微图像I7中的像素点颜色进行聚类分析,将I7像素点分为N个种类,在此基础上将有效RNA序列S2分为N个种类,使用bi

kmeans算法能够解决聚类后的结果陷入局部最优的缺陷,具体的bi

kmeans算法步骤:1)创建n个点作为初始的质心;2)当任意一个点的簇分配结果发生改变时;21)对数据中的每个数据点计算质心和数据点之间的欧式距离;22)将数据点分配到距离最近的簇;3)对每个簇,计算簇中所有点的均值并将均值作为质心;选择合适的聚类中心n用于基因分类,确定分类的数目N,系统通过人工输入数目,得到可靠的生物学种类,同时也对最适合的分类...

【专利技术属性】
技术研发人员:牛毅屈康王佳李甫马明明李胜康陈毓新
申请(专利权)人:深圳华大生命科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1