数据预处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39147470 阅读:11 留言:0更新日期:2023-10-23 14:57
本申请实施例提供一种数据预处理方法,包括:确定待识别序列的初始长度;所述待识别序列用于表征生物分子结构;基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列;对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合;所述聚类集合用于识别所述待识别序列的类别。本申请实施例还提供一种数据预处理方法、装置、电子设备和存储介质。和存储介质。和存储介质。

【技术实现步骤摘要】
数据预处理方法、装置、电子设备及存储介质


[0001]本申请涉及固态纳米孔数据分析与人工智能领域,尤其涉及一种数据预处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前利用过孔事件数据分析生物分子结构尚处在初步阶段,已公开的方法包括:一种基于固态纳米孔传感器的微小核糖核酸(Micro RNA,miRNA)检测方法,通过统计miRNA

21和miRNA

486两种肿瘤标志物过孔信号的幅值(当前电流值与基线电流值差值)的高斯分布,然后通过人工观察,选择合适的阈值进行区分;一种基于纳米孔过孔电流估计蛋白质构象形貌特征的方法,统计相对阻塞电流这一特征,仍然选择合适的阈值进行区分。
[0003]但是,幅值的大小取决于纳米孔被堵塞的程度,纳米孔被堵塞的程度是生物分子尺寸与纳米孔尺寸比值,当需要识别生物分子的尺寸接近时,过孔事件的幅值没有显著的区分度,在中间区域存在大量重叠的过孔信号导致无法有效区分尺寸相近的生物分子。

技术实现思路

[0004]本申请实施例提供一种数据预处理方法、装置、电子设备及存储介质。
[0005]本申请的技术方案是这样实现的:
[0006]本申请实施例提供一种数据预处理方法,包括:
[0007]确定待识别序列的初始长度;所述待识别序列用于表征生物分子结构;
[0008]基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列;
[0009]对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合;所述聚类集合用于识别所述待识别序列的类别。
[0010]本申请实施例提供一种数据预处理装置,包括:
[0011]确定单元,用于确定待识别序列的初始长度;所述待识别序列用于表征生物分子结构;
[0012]第一处理单元,用于基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列;
[0013]第二处理单元,用于对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合;所述聚类集合用于识别所述待识别序列的类别。
[0014]本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,执行上述提供的数据预处理方法。
[0015]本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序使得计算机执行上述提供的数据预处理方法。
[0016]在本申请的一些实施例提供的技术方案,采用待识别序列表征生物分子结构,确定待识别序列的初始长度,根据初始长度,对待识别序列进行标准化处理,得到长度统一的目标待识别序列,利用聚类方式对目标待识别序列的多个数据进行划分,得到多个聚类集
合,每个聚类集合中的数据具有相似性,如此,通过将相似的数据聚集到同一个聚类集合,能清楚的了解到待识别序列中数据的特征,从而在后续处理中,利用聚类集合能够提高对待识别序列的分类的准确度,避免因生物分子的尺寸接近时,无法用阈值进行有效区分,从而无法判别生物分子的类别。
附图说明
[0017]图1为本申请实施例提供的一种数据预处理方法流程图一;
[0018]图2为本申请实施例提供的一种数据预处理方法流程图二;
[0019]图3为本申请实施例提供的一种数据预处理方法流程图三;
[0020]图4为本申请实施例提供的一种数据预处理方法流程图四;
[0021]图5为本申请实施例提供的一种模型架构图;
[0022]图6为本申请实施例提供的一种卷积网络结构图;
[0023]图7为本申请实施例提供的8种不同生物分子过孔事件数据统计图;
[0024]图8为本申请实施例提供的一种幅值

时间统计图;
[0025]图9为本申请实施例提供的一种实验结果图;
[0026]图10为本申请实施例提供的一种数据预处理装置的结构组成示意图;
[0027]图11为本申请实施例提供的一种电子设备的硬件结构组成示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明,以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。
[0030]另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于特定的顺序或先后次序。
[0031]固态纳米孔是一种强大的单分子传感设备,应用在蛋白质检测、生物分子折叠状态分析、SNP基因分型等方面。固态纳米孔测序装置由两个充满液体的容器槽组成,两槽之间由纳米孔连接,在过孔实验时,通过在两槽外部施加一定的电压形成电场,电场力驱动槽内的生物分子通过纳米孔,当分子通过纳米孔时,会产生一个与分子形状相对应的时间序列电流轨迹,通常称为过孔事件。根据过孔时的电流变化特征,使用一定的分析方法可以推断出产生该信号时通过的生物分子类别。
[0032]目前利用过孔事件数据分析生物分子结构尚处在初步阶段,主要利用过孔事件的特征,如幅值、相对阻塞电流等,通过人工观察,选取合适的阈值进行区分。但是,一方面,阈值的选取需要专业知识,并且随着实验条件的改变每次设定的阈值也需要相应的调整,使得任务需要大量人力介入;另一方面,幅值的大小取决于纳米孔被堵塞的程度(生物分子尺寸与纳米孔尺寸比值),当需要识别生物分子的尺寸接近时,过孔事件的特征没有显著的区
分度,导致在中间区域存在大量重叠的过孔信号无法有效区分。
[0033]基于现有技术存在的相关问题,本申请实施例提供了一种数据预处理方法,采用待识别序列表征生物分子结构,确定待识别序列的初始长度,根据初始长度,对待识别序列进行标准化处理,得到长度统一的目标待识别序列,利用聚类方式对目标待识别序列的多个数据进行划分,得到多个聚类集合,每个聚类集合中的数据具有相似性,如此,通过将相似的数据聚集到同一个聚类集合,能清楚的了解到待识别序列中数据的特征,从而在后续处理中,利用聚类集合能够提高对待识别序列的分类的准确度,避免因生物分子的尺寸接近时,无法用阈值进行有效区分,从而无法判别生物分子的类别。
[0034]本申请实施例提供的数据预处理方法可以应用在需要对生物分子进行分子的任意领域,包括但不限于生物研究领域,动物研究领域,植物研究领域,医学领域,生物遗传领域等,本申请实施例对此不做具体限定。
[0035]本申请实施例提供的数据预处理方法可以通过装置实现,装置可以应用于电子设备,电子设备包括但不限于笔记本电脑,平板电脑,台式计算机,移动设备(用于医学检测设备)等。
[0036]图1是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据预处理方法,其特征在于,包括:确定待识别序列的初始长度;所述待识别序列用于表征生物分子结构;基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列;对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合;所述聚类集合用于识别所述待识别序列的类别。2.根据权利要求1所述的方法,其特征在于,基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列,包括:若所述初始长度大于第一阈值,则去除所述待识别序列的初始长度超过所述第一阈值的部分的数据,得到所述目标待识别序列;若所述初始长度小于第一阈值,则将所述待识别序列的初始长度填充至与所述第一阈值相等,得到所述目标待识别序列。3.根据权利要求2所述的方法,其特征在于,所述将所述待识别序列的初始长度填充至与所述第一阈值相等,得到所述目标待识别序列,包括:在所述待识别序列的头部和/或尾部填充噪音数据,得到所述目标待识别序列。4.根据权利要求3所述的方法,其特征在于,所述在所述待识别序列的头部和尾部填充噪音数据的数量相等,或者相差1。5.根据权利要求3所述的方法,其特征在于,所述待识别序列中的有效数据与所述噪音数据采用不同的类型数据编码。6.根据权利要求3所述的方法,其特征在于,所述对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合,包括:计算所述待识别序列中的第一个数据与所述待识别序列中的其他数据间的第一距离;若所述第一距离小于聚类阈值,则所述第一个数据与所述第一距离小于所述聚类阈值的数据在第一聚类集合;所述聚类阈值为所述噪音数据的平均值;接着计算所述待识别序列中剩余的数据中的第一个数据与剩余的数据中的其他数据的第二距离;若所述第二距离小于所述聚类阈值,则所述剩余的数据中的第一数据与所述第二距离小于所述聚类阈值的数据在第二聚类集合;依次类推,直到所述待识别序列中的最后一个数据在聚类集合中。7.根据权利要求1至6任一项所述的方法,其特征在于,所述多个聚类集合的最小数量为2,最大数量与所述生物分子结构有关。8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:将所述多个聚类集合,输入至预训练分类模型,得到所述待识别序列的类别;其中,所述预训练分类模型用于确定所述待识别序列的类别。9.根据权利要求...

【专利技术属性】
技术研发人员:刘新龙孙泽鹏许利群乔丰
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1