一种生物信息分析方法及装置、电子设备及存储介质制造方法及图纸

技术编号:33286409 阅读:23 留言:0更新日期:2022-04-30 23:54
本申请公开了一种生物信息分析方法及装置、电子设备及存储介质。所述生物信息分析方法可包括:将所述第一基因测序数据与第一类基因库中的基因序列进行对比,过滤掉去除第一基因测序数据中包含在第一类基因库中的测序数据,得到第一生物信息;将第二基因测序数据与第二类基因库包含的基因序列对比,过滤掉去除第二基因测序数据中包含在第二类基因库中测序数据,得到第二生物信息;交叉比对所述第一生物信息和所述第二生物信息,过滤掉包含所述第一生物信息和第二生物信息中的相同测试数据内容的不同测试数据值,得到第三生物信息;根据所述第三生物信息,输出所述病原的种属计数的统计结果。数的统计结果。数的统计结果。

【技术实现步骤摘要】
一种生物信息分析方法及装置、电子设备及存储介质


[0001]本专利技术涉及生物学
,尤其涉及一种生物信息分析方法及装置、电子设备及存储介质。

技术介绍

[0002]病原体宏基因组检测是对疑似感染标本直接提取DNA或RNA进行高通量测序,通过专门的微生物数据库比对和生物信息学智能算法分析,可一次性完成细菌、真菌、病毒和寄生虫等多种病原体检测,获得疑似致病微生物的种属信息。该技术方法具有的优势包括:检测无需培养、无偏好性;覆盖面更广,可同时检测上万种细菌、病毒、真菌、寄生虫等四大类微生物;相对于传统检测方法检测效率和敏感性更高。
[0003]在生物学领域,病原体宏基因组检测在生物信息分析方面发挥着至关重要的作用,搭建的数据库是否全面,算法的选择和种属分类方法是否合理都将影响分析结果的准确性。

技术实现思路

[0004]本专利技术实施例提供了一种生物信息分析方法及装置、电子设备及存储介质,以提高分析结果的准确性。
[0005]本公开实施例第一方面提供一种信息分析方法,其特征在于,所述分析方法包括:
[0006]对待测病原宏基因测序数据按照过滤规则进行数据过滤,得到第一基因测序数据;
[0007]将所述第一基因测序数据与第一类基因库中的基因序列进行对比,过滤掉去除第一基因测序数据中包含在第一类基因库中的测序数据,得到第一生物信息;
[0008]将第二基因测序数据与第二类基因库包含的基因序列对比,过滤掉去除第二基因测序数据中包含在第二类基因库中测序数据,得到第二生物信息;其中,所述第二基因测序数据为:保留第一基因测序数据中包含在第一类基因库中的测序数据;
[0009]交叉比对所述第一生物信息和所述第二生物信息,过滤掉包含所述第一生物信息和所述第二生物信息中的相同测试数据内容的不同测试数据值,得到第三生物信息;
[0010]根据所述第三生物信息,输出所述病原的种属计数的统计结果。
[0011]基于上述方案,对待测病原宏基因测序数据按照过滤规则进行数据过滤,包括以下至少之一:
[0012]对所述待测病原宏基因测序数据中含有测序接头的所述待测病原宏基因测序数据片段进行过滤;
[0013]对所述待测病原宏基因测序数据中序列起始和末尾连续的长度大于或等于第一阈值的N碱基序列进行过滤;
[0014]对质量值Q小于或等于第二阈值的碱基数占整条所述待测病原宏基因测序数据的一半以上的数据进行过滤;
[0015]将所述待测原宏基因测序数据与人类参考基因组进行对比,过滤掉比对成功的所述待测原宏基因测序数据。
[0016]基于上述方案,所述第一类基因库包括:微生物参考基因组;
[0017]其中,所述微生物参考基因组是根据数据选择标准对NCBI的RefSeq和Genbank数据库确定的。
[0018]所述微生物参考基因组,包括以下至少之一:
[0019]从所述NCBI的RefSeq数据库和/或Genbank数据库中选择的预设发布地的参考基因组序列;
[0020]从所述NCBI的RefSeq数据库和/或Genbank数据库中选择的被记为代表性的序列的参考基因组序列;
[0021]从所述NCBI的RefSeq数据库和/或Genbank数据库中选择的预设发布时间内的参考基因组序列。
[0022]基于上述方案,将所述第一基因测序数据与第一类基因库中的基因序列进行对比,过滤掉去除第一基因测序数据中包含在第一类基因库中的测序数据,包括以下至少之一:
[0023]对第一基因测序数据中与第一类基因库的基因序列的碱基错配数大于第三阈值的测序数据进行过滤;
[0024]对第一基因测序数据中与第一类基因库的基因序列的匹配长度小于第四阈值的序列的测序数据进行过滤。
[0025]基于上述方案,所述第一生物信息,至少包括:所述第一基因测序数据在第一类基因库中的种属名称;
[0026]所述第二生物信息,至少包括:所述第二基因测序数据在第二类基因库中的种属名称。
[0027]基于上述方案,将所述第二基因测序数据与第二类基因库中的基因序列进行对比,过滤掉去除第二基因测序数据中包含在第二类基因库中的测序数据,包括以下至少之一:
[0028]对第二基因测序数据中与第二类基因库的基因序列的碱基错配数大于第三阈值的测序数据进行过滤;
[0029]对第二基因测序数据中与第二类基因库的基因序列的匹配长度小于第四阈值的序列的测序数据进行过滤;
[0030]对第二基因测序数据中与第二类基因库的基因序列的匹配度小于第五阈值的序列的测序数据进行过滤。
[0031]基于上述方案,所述第三生物信息包括以下至少之一:
[0032]所述第一生物信息和第二生物信息中的相同测试数据内容的相同数据值;
[0033]包含在所述第一生物信息且不包含在所述第二生物信息中的测试数据。
[0034]基于上述方案,根据所述第三生物信息,输出所述病原的种属计数的统计结果,包括:若所述第三生物信息匹配到相同属的不同种,该属计数加一;
[0035]若所述第三生物信息匹配到不同属的不同种,则该条序列比对结果无法区分到种和属,不进行统计;
[0036]若所述第三生物信息匹配到唯一属上的唯一种,则该种和属计数各加一。
[0037]本公开实施例第二方面提供一种生物信息分析装置,所述装置包括:
[0038]获取模块,用于对待测病原宏基因测序数据按照过滤规则进行数据过滤,得到第一基因测序数据;
[0039]比较模块,用于将所述第一基因测序数据与第一类基因库中的基因序列进行对比,过滤掉去除第一基因测序数据中包含在第一类基因库中的测序数据,得到第一生物信息,将第二基因测序数据与第二类基因库包含的基因序列对比,过滤掉去除第二基因测序数据中包含在第二类基因库中测序数据,得到第二生物信息;
[0040]确定模块,用于交叉比对所述第一生物信息和所述第二生物信息,过滤掉包含所述第一生物信息和第二生物信息中的相同测试数据内容的不同测试数据值,得到第三生物信息;
[0041]统计模块,用于根据所述第三生物信息,输出所述病原的种属计数的统计结果。
[0042]本公开实施例第三方面提供一种电子设备,包括:
[0043]存储器;
[0044]处理器,与所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现前述任意第一方面或第二方面任意技术方案提供的内容缓存方法。
[0045]本公开实施例第四方面提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,实现第一方面或第二方面任意技术方案提供的内容缓存方法。
[0046]本专利技术实施例提供的生物信息分析方法,包括:将所述第一基因测序数据与第一类基因库中的基因序列进行对比,得到第一生物信息;将第二基因测序数据与第二类基因库包含的基因序列对比,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生物信息分析方法,其特征在于,所述分析方法包括:对待测病原宏基因测序数据按照过滤规则进行数据过滤,得到第一基因测序数据;将所述第一基因测序数据与第一类基因库中的基因序列进行对比,过滤掉去除第一基因测序数据中包含在第一类基因库中的测序数据,得到第一生物信息;将第二基因测序数据与第二类基因库包含的基因序列对比,过滤掉去除第二基因测序数据中包含在第二类基因库中测序数据,得到第二生物信息;其中,所述第二基因测序数据为:保留第一基因测序数据中包含在第一类基因库中的测序数据;交叉比对所述第一生物信息和所述第二生物信息,过滤掉包含所述第一生物信息和所述第二生物信息中的相同测试数据内容的不同测试数据值,得到第三生物信息;根据所述第三生物信息,输出所述病原的种属计数的统计结果。2.根据权利要求1所述的分析方法,其特征在于,对待测病原宏基因测序数据按照过滤规则进行数据过滤,包括以下至少之一:对所述待测病原宏基因测序数据中含有测序接头的所述待测病原宏基因测序数据片段进行过滤;对所述待测病原宏基因测序数据中序列起始和末尾连续的长度大于或等于第一阈的N碱基序列进行过滤;对质量值Q小于或等于第二阈值的碱基数占整条所述待测病原宏基因测序数据的一半以上的数据进行过滤;将所述待测病原宏基因测序数据与人类参考基因组进行对比,过滤掉比对成功的所述待测病原宏基因测序数据。3.根据权利要求1所述的分析方法,其特征在于,所述第一类基因库包括:微生物参考基因组;其中,所述微生物参考基因组是根据数据选择标准对NCBI的RefSeq和Genbank数据库确定的。4.根据权利要求3所述的分析方法,其特征在于,所述微生物参考基因组,包括以下至少之一:从所述NCBI的RefSeq数据库和/或Genbank数据库中选择的预设发布地的参考基因组序列;从所述NCBI的RefSeq数据库和/或Genbank数据库中选择的被记为代表性的序列的参考基因组序列;从所述NCBI的RefSeq数据库和/或Genbank数据库中选择的预设发布时间内的参考基因组序列。5.根据权利要求1所述的分析方法,其特征在于,将所述第一基因测序数据与第一类基因库中的基因序列进行对比,过滤掉去除第一基因测序数据中包含在第一类基因库中的测序数据,包括以下至少之一:对第一基因测序数据中与第一类基因库的基因序列的碱基错配数大于第三阈值的测序数据进行过滤;对第一基因测序数据中与第一类基因库的基因序列的匹配长度小于第四阈值的序列的测序数据进行过滤。
6.根据权利要求1所述的分析方...

【专利技术属性】
技术研发人员:邓小龙曾敏刘让蛟戴立忠
申请(专利权)人:圣湘生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1