数据预测方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:33351896 阅读:54 留言:0更新日期:2022-05-08 09:59
本公开提供了一种数据预测方法、装置、电子设备以及计算机可读存储介质,本公开首先获取目标微生物的初始基因信息;之后基于所述初始基因信息,确定所述初始基因信息对应的基因统计特征;其中,所述基因统计特征包括所述目标微生物对应的至少一个基因片段,以及每个所述基因片段对应的频率信息;最后,将所述基因统计特征输入训练好的深度学习网络,经过所述深度学习网络对所述基因统计特征进行处理,得到所述目标微生物的类别信息。到所述目标微生物的类别信息。到所述目标微生物的类别信息。

【技术实现步骤摘要】
数据预测方法、装置、电子设备以及存储介质


[0001]本公开涉及微生物
,具体而言,涉及一种数据预测方法、装置、电子设备以及存储介质。

技术介绍

[0002]人类肠道微生物,例如人类肠道菌群与人类健康和疾病具有直接的联系,因此,对微生物进行基因解析、识别微生物的种类、以及建立微生物的种类与疾病的关联关系对于疾病的诊断具有重要的作用。
[0003]目前对微生物的种类进行预测方案中,一种是通过特定的基因来预测,这种方案的预测精确度,依赖于对特定基因进行提取的基因工具,该基因提取工具的提取精度不仅无法保证,并且基因提取成功率较低,这就在很大程度上减低了微生物种类预测的精确性。另一种对微生物的种类进行预测方案,是使用微生物的所有的基因数据,这就造成种类预测中使用的数据量过大,不仅降低了微生物种类预测的效率,并且浪费了计算资源。

技术实现思路

[0004]本公开实施例至少提供一种数据预测方法、装置、电子设备以及计算机可读存储介质。
[0005]第一方面,本公开实施例提供了一种数据预测方法,包括:
[0006]获取目标微生物的初始基因信息;
[0007]基于所述初始基因信息,确定所述初始基因信息对应的基因统计特征;其中,所述基因统计特征包括所述目标微生物对应的至少一个基因片段,以及每个所述基因片段对应的频率信息;
[0008]将所述基因统计特征输入训练好的深度学习网络,经过所述深度学习网络对所述基因统计特征进行处理,得到所述目标微生物的类别信息。
[0009]该方面,在对目标微生物进行种类预测的过程中,不是利用所有的基因数据,而是利用目标微生物对应的基因统计特征,这就有效减少了在种类预测中所使用的数据量,提高了预测效率,节省了计算资源;同时,由于基因统计特征是根据目标微生物的初始基因信息确定的,因此,基因统计特征能够较为准确的表征目标微生物的基因信息,利用基因统计特征能够保证目标微生物种类的预测精度;另外,由于该方面在种类预测过程中未利用目标微生物的特定基因,因此克服了现有技术中在微生物种类预测中存在的对特定基因提取工具的依赖,有利于提高微生物种类预测的精度。另外,利用训练好的深度学习网络对基因统计特征进行处理以对目标微生物进行种类预测,能够进一步提高种类预测效率以及节省人力资源。
[0010]在一种可能的实施方式中,所述获取目标微生物的初始基因信息,包括:
[0011]提取所述目标微生物的基因组信息;
[0012]去除所述基因组信息中异常的基因组信息;
[0013]对剩余的基因组信息进行拼接,得到连续碱基序列,并将得到的所述连续碱基序列作为所述初始基因信息。
[0014]该实施方式,通过对目标微生物的基因组信息进行异常处理和拼接,得到了能够较为准确地表征目标微生物的基因信息的连续碱基序列,利用该连续碱基序列对目标微生物进行种类预测,能够提高预测精度。
[0015]在一种可能的实施方式中,所述基因组信息包括宏基因组信息。
[0016]该实施方式,宏基因组信息能够表征目标微生物的基因信息的总和,因此在基因组信息包括宏基因组信息的情况下,能够提高利用基因组信息确定的初始基因信息的完整性,有利于提高目标微生物种类预测的精度。
[0017]在一种可能的实施方式中,所述基因片段包括多个碱基组成的碱基序列。
[0018]该实施方式,多个碱基组成的碱基序列能够表征一个基因片段的基因特征,进一步地,多个基因片段以及每个基因片段的频率信息能够较为准确和完整地表征目标微生物的基因特征,因此,利用由基因片段确定的基因统计特征来进行目标微生物的种类预测,能够有效提高预测精度。
[0019]在一种可能的实施方式中,所述目标微生物包括细菌,所述类别信息包括所述细菌所属的属对应的第一类别信息和/或所述细菌所输的种对应的第二类别信息。
[0020]该实施方式,种或属能够准确表征细菌的类别信息。
[0021]在一种可能的实施方式中,所述将所述基因统计特征输入训练好的深度学习网络,经过所述深度学习网络对所述基因统计特征进行处理,得到所述目标微生物的类别信息,包括:
[0022]基于所述初始基因信息,确定所述目标微生物的预设遗传信息载体对应的基因序列信息;
[0023]将所述基因统计特征和所述基因序列信息输入训练好的深度学习网络,经过所述深度学习网络对所述基因统计特征和所述基因序列信息进行处理,得到所述目标微生物的类别信息。
[0024]该实施方式,预设遗传信息载体对应的基因序列信息包括较少的能够表征目标微生物类别的基因信息,结合基因统计特征和基因序列信息来对目标微生物的种类进行预测,能够有效提高预测精度。
[0025]在一种可能的实施方式中,所述预设遗传信息载体包括核糖体核糖核酸;所述基因序列信息包括所述核糖体核糖核酸对应的碱基序列。
[0026]该实施方式,核糖体核糖核酸分子大小适中,突变率小,利用核糖体核糖核酸能够较为准确地对目标微生物进行种类预测。
[0027]在一种可能的实施方式中,所述深度学习网络包括多层感知机对应的神经网络。
[0028]该实施方式,多层感知机能够较为准确地确定目标微生物的类别信息。
[0029]第二方面,本公开提供了一种数据预测装置,包括:
[0030]信息获取模块,用于获取目标微生物的初始基因信息;
[0031]信息处理模块,用于基于所述初始基因信息,确定所述初始基因信息对应的基因统计特征;其中,所述基因统计特征包括所述目标微生物对应的至少一个基因片段,以及每个所述基因片段对应的频率信息;
[0032]种类预测模块,用于将所述基因统计特征输入训练好的深度学习网络,经过所述深度学习网络对所述基因统计特征进行处理,得到所述目标微生物的类别信息。
[0033]第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0034]第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0035]关于上述数据预测装置、电子设备、及计算机可读存储介质的效果描述参见上述数据预测方法的说明,这里不再赘述。
[0036]为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0037]为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据预测方法,其特征在于,包括:获取目标微生物的初始基因信息;基于所述初始基因信息,确定所述初始基因信息对应的基因统计特征;其中,所述基因统计特征包括所述目标微生物对应的至少一个基因片段,以及每个所述基因片段对应的频率信息;将所述基因统计特征输入训练好的深度学习网络,经过所述深度学习网络对所述基因统计特征进行处理,得到所述目标微生物的类别信息。2.根据权利要求1所述的方法,其特征在于,所述获取目标微生物的初始基因信息,包括:提取所述目标微生物的基因组信息;去除所述基因组信息中异常的基因组信息;对剩余的基因组信息进行拼接,得到连续碱基序列,并将得到的所述连续碱基序列作为所述初始基因信息。3.根据权利要求2所述的方法,其特征在于,所述基因组信息包括宏基因组信息。4.根据权利要求1或2所述的方法,其特征在于,所述基因片段包括多个碱基组成的碱基序列。5.根据权利要求1至4任一项所述的方法,其特征在于,所述目标微生物包括细菌,所述类别信息包括所述细菌所属的属对应的第一类别信息和/或所述细菌所输的种对应的第二类别信息。6.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述基因统计特征输入训练好的深度学习网络,经过所述深度学习网络对所述基因统计特征进行处理,得到所述目标微生物的类别信息,包括:基于所述初始基因信息,确定所述目标微生物的预设遗传信息载体对应的基因序列信息;将所述基因统计特征和所述...

【专利技术属性】
技术研发人员:黎瑛张捷
申请(专利权)人:深圳市商汤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1