一种神经精神疾病新发突变信息知识平台制造技术

技术编号:24097585 阅读:37 留言:0更新日期:2020-05-09 11:11
本发明专利技术公开了一种神经精神疾病新发突变信息知识平台,包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层;其中,所述数据采集和处理层包括多维数据采集模块、数据解析模块和数据存储模块;多维数据存储层为采用高性能非SQL数据库管理系统控制的大数据平台;多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块;所述数据可视化及访问层通过WEB界面的形式向用于实时映射或绘图显示查询数据。本申请通过神经精神疾病新发突变信息知识平台的建设,并通过大数据平台,涵盖了历史和最新数据的录入和调出,能够为神经精神疾病研究的用户实时映射或绘图显示查询数据,提高了科学研究的可视化和效率。

A new mutation information platform for neuropsychiatric diseases

【技术实现步骤摘要】
一种神经精神疾病新发突变信息知识平台
本专利技术涉及精神疾病的突变信息处理技术,尤其涉及一种神经精神疾病新发突变信息知识平台。
技术介绍
除了遗传每个亲本基因组的一半之外,每个人天生就有一小组新的发生在配子发生过程中的遗传变化,称为新发变异(DNVs)。这些变异在亲代到后代的家系研究中鉴定,大小范围从单核苷酸变异到小插入和缺失(插入缺失)作为新发突变(DNM),以及作为新发拷贝数变异(CNV)的更大结构变异,已经涉及各种人类疾病。在过去的几年中,通过全外显子组测序和全基因组测序发现了大量的DNVs,并在基因水平上进行了探索和分析,在评估它们对复杂疾病的贡献方面取得了巨大成功。然而,据估计多达95%的基因受到选择性剪接(AS)以产生各种转录本以增加人类转录组和蛋白质组多样性,每个基因大约有4到7个转录本。转录本是高度特异性的,其表达通常局限于同一组织内的某些器官,组织甚至细胞类型。值得注意的是,它在脑组织中以高频率发生,并调节神经发育过程中发生的生物过程,包括细胞命运决定,神经元迁移,轴突导向和突触发生。目前还未见有生物数据知识库提供这些探索,其主要存在的缺陷如下:1、由于外显子在同一基因的转录本中差异使用,因此疾病突变可能仅选择性地影响具有携带突变的外显子的转录本。此外,如果某些转录本不在特定发育期或特定组织中表达,那么影响这些转录本的疾病突变可能不会在那个时期或该组织中表现出它们的功能性影响。然而,目前还未见有数据库知识平台将组织特异性转录本与疾病突变相关联;2、由于大脑是AS事件数量最多的组织之一,因此必须研究与转录本异构水平的脑部疾病相关的突变与脑特异性表达。然而,在发育和神经精神病疾病中的转录本和DNMs之间的关联,例如自闭症(ASD),精神分裂症(SCZ),早期发作的阿尔茨海默病(AD)和先天性心脏病(CHD),由于样本组织特异性,很少出现大规模探索。因此,为了神经疾病研究,急需一种可以高效快速、一站式数据查询和数据特征提取的信息平台,以提高数据支持和快速高效的关系研究。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种神经精神疾病新发突变信息知识平台,其能解决上述相关问题。本专利技术的目的采用以下技术方案实现:一种神经精神疾病新发突变信息知识平台,其特征在于:所述信息知识平台包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层;其中,所述数据采集和处理层包括多维数据采集模块、数据解析模块和数据存储模块;所述多维数据采集模块采集历史神经精神疾病新发突变数据信息,所述数据解析模块将采集到的历史新发突变数据进行样本标识符、参考和替代等位基因的染色体位置、以及验证状态的信息解析,并将解析结果通过所述数据存储模块进行存储;其中,多维数据存储层为采用高性能非SQL数据库管理系统控制的大数据平台,所述大数据平台接收经所述数据采集和处理层解析和与存储的新发突变数据信息,并通过人工采集和联网实时获取神经精神疾病新发突变研究文献和数据;其中,多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块;所述去冗余处理模块采用python语言撰写的内置脚本,实现了对突变、基因和表达数据进行去重处理和标准化处理功能;所述特征分析模块采集生物数据类型,并进行归类特征处理;所述分类管理模块使用python语言编写,并对原始数据以及经过去冗余模块和特征分析模块处理后的中间数据结果进行处理、储存和调用;其中,所述数据可视化及访问层通过WEB界面的形式向用于实时映射或绘图显示查询数据。优选的,在多维数据采集模块中,将新发突变分为包括新发位点突变和小插入缺失的突变DNM和新发拷贝数变异CNV两类,其中CNV包括DNA区域拷贝数的缺失或重复。优选的,所述高性能非SQL数据处理系统为MongoDB,以使得所述大数据平台具有实时更新、数据集成和模块拓展功能。优选的,所述内置脚本算法流程包括:①对数据进行标准化处理;②根据数据在数据源中的唯一标识以及相应键值进行消除重复、数据压缩。优选的,所述归类特征处理分为①对DNM进行打分评估;②调控元件的选择和突变图谱构建;③突变所在蛋白互作网络构建。优选的,所述分类管理模块的算法思想包括:①根据数据类型,对原始数据和经过特征分析的中间数据结果进行预处理,最后根据数据中基因唯一标识(EntrezID)进行整合,生成以基因唯一标识(EntrezID)为键值的字典;②调用python中的PyMongo模块控制MongoDB,对上一步中生成的字典存储进相应聚集;③调用python中的PyMongo模块控制MongoDB,进行数据读取。相比现有技术,本专利技术的有益效果在于:通过神经精神疾病新发突变信息知识平台的建设,并通过大数据平台,使得知识平台涵盖了历史和最新数据的录入和调出,获得以新发突变为中心的遗传及表达信息,能够为神经疾病研究的用户实时映射或绘图显示查询数据,提高了研究的可视化和效率。附图说明图1为本专利技术一种神经精神疾病新发突变信息知识平台的模型框架流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见附图1,一种神经精神疾病新发突变信息知识平台(PsyMuKB),所述信息知识平台包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层。数据采集和处理层其中,所述数据采集和处理层负责原始数据的获取工作,根据数据源的相应配置文件进行数据下载、解析和存储,包括多维数据采集模块、数据解析模块和数据存储模块。所述多维数据采集模块采集历史神经精神疾病新发突变数据信息,并根据需要下载的数据源进行自动数据下载,其中包括FTP、HTTP等具体下载实现机制。所述数据解析模块将采集到的历史新发突变数据进行样本标识符、参考和替代等位基因的染色体位置、以及验证状态的信息解析,并将解析结果通过所述数据存储模块进行存储。进一步的,所述数据解析模块还根据已下载的数据文件信息自动分配相应的解析器进行数据解析,解析结果以统一的数据传输格式发送到所述数据存储模块,所述数据存储模块按照PsyMuKB网站存储设计存放解析结果。进一步的,在多维数据采集模块中,将新发突变分为包括新发位点突变和小插入缺失的突变DNM和新发拷贝数变异CNV两类,其中CNV包括DNA区域拷贝数的缺失或重复。一个实施例中,DNM和CNV的所有变异的坐标均以GRCh37(人类参考基因组hg19)版本显示在神经精神疾病新发突变信息知识平台(PsyMuKB)的中,以确保注释的一致性。多维数据存储层其中,多维数据存储层为采用高性能非本文档来自技高网
...

【技术保护点】
1.一种神经精神疾病新发突变信息知识平台,其特征在于:所述信息知识平台包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层;/n其中,所述数据采集和处理层包括多维数据采集模块、数据解析模块和数据存储模块;所述多维数据采集模块采集历史神经精神疾病新发突变数据信息,所述数据解析模块将采集到的历史新发突变数据进行样本标识符、参考和替代等位基因的染色体位置、以及验证状态的信息解析,并将解析结果通过所述数据存储模块进行存储;/n其中,多维数据存储层为采用高性能非SQL数据库管理系统控制的大数据平台,所述大数据平台接收经所述数据采集和处理层解析和与存储的新发突变数据信息,并通过人工采集和联网实时获取神经精神疾病新发突变研究文献和数据;/n其中,多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块;所述去冗余处理模块采用python语言撰写的内置脚本,实现了对突变、基因和表达数据进行去重处理和标准化处理功能;所述特征分析模块采集生物数据类型,并进行归类特征处理;所述分类管理模块使用python语言编写,并对原始数据以及经过去冗余模块和特征分析模块处理后的中间数据结果进行处理、储存和调用;/n其中,所述数据可视化及访问层通过WEB界面的形式向用于实时映射或绘图显示查询数据。/n...

【技术特征摘要】
1.一种神经精神疾病新发突变信息知识平台,其特征在于:所述信息知识平台包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层;
其中,所述数据采集和处理层包括多维数据采集模块、数据解析模块和数据存储模块;所述多维数据采集模块采集历史神经精神疾病新发突变数据信息,所述数据解析模块将采集到的历史新发突变数据进行样本标识符、参考和替代等位基因的染色体位置、以及验证状态的信息解析,并将解析结果通过所述数据存储模块进行存储;
其中,多维数据存储层为采用高性能非SQL数据库管理系统控制的大数据平台,所述大数据平台接收经所述数据采集和处理层解析和与存储的新发突变数据信息,并通过人工采集和联网实时获取神经精神疾病新发突变研究文献和数据;
其中,多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块;所述去冗余处理模块采用python语言撰写的内置脚本,实现了对突变、基因和表达数据进行去重处理和标准化处理功能;所述特征分析模块采集生物数据类型,并进行归类特征处理;所述分类管理模块使用python语言编写,并对原始数据以及经过去冗余模块和特征分析模块处理后的中间数据结果进行处理、储存和调用;
其中,所述数据可视化及访问层通过WEB界面的形式向用于实时映射或绘图显示查询数据。

【专利技术属性】
技术研发人员:林关宁王晗王卫娣
申请(专利权)人:上海市精神卫生中心上海市心理咨询培训中心
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1