基于自然语言处理的基因交互网络构建方法、装置及设备制造方法及图纸

技术编号：37603388 阅读：14 留言：0更新日期：2023-05-18 11:54

本发明专利技术公开了基于自然语言处理的基因交互网络构建方法、装置及设备，方法包括：进行检索获取目标文献，根据基因库对目标文献中的文本信息进行匹配识别以确定其中的基因名，对未被识别的文本信息进行预测识别以确定其中的预测基因名；对目标文献的文本语句进行筛选得到候选语句，对后续语句进行关系识别，基于候选语句的交互类别构建对应的基因交互网络。通过上述方法，基于基因库的匹配识别及自然语言预测识别确定目标文献中的基因名及预测基因名，对候选语句进行智能关系识别并确定交互类型后构建基因交互网络，无需人工进行基因实体的识别和基因关系提取，缩短了基因交互网络的构建时间，通过自然语言处理大幅提高了基因交互网络的构建效率。互网络的构建效率。互网络的构建效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理的基因交互网络构建方法、装置及设备

[0001]本专利技术涉及人工智能
，尤其涉及一种基于自然语言处理的基因交互网络构建方法、装置及设备。

技术介绍

[0002]人类大约有几万个基因，记录和传递着遗传信息，基因通过复制、转录、翻译等完成人体重要的生理过程。生物的各种性状大多是基因之间的相互作用的结果。基因互作网络是一组通过连接基因间功能关系的基因集合，连接基因的即为相互作用。基因间主要通过其基因产物(例如蛋白质)进行物理相互作用，或者其中一个基因改变或影响其他目的基因的活性而发挥作用。基因的功能产物，例如蛋白质，协同工作以实现特定的任务，并且通常相互关联或形成更复杂的结构。由于这些相互作用对大多数生物过程都很重要，因此了解基因间的相互作用对于探索基因的生物功能至关重要。
[0003]许多肿瘤的发生发展与基因间的相互作用相关，且肿瘤相关的基因的互作网络有助于阐述肿瘤发生发展机制并确定治疗方法及判断预后情况。近年来，高通量方法，如酵母双杂交、免疫共沉淀、质谱分析及串联亲和纯化等，已被广泛用于鉴定各种生物体蛋白质
‑
蛋白质相互作用。
[0004]随着生物研究的不断深入，已知的基因间的相互作用的数量显著增加，现有技术方法为方便后续进行基因型分析通常会构建基因交互网络，然而现有技术方法中在构建基因交互网络时，进行基因实体的识别和关系的提取需要大量手动标记的数据集，然而基因实体的识别并对基因进行关联分析后手动标记基因之间的交互类型需要耗费大量的时间和人力，极大影响了基因交互...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的基因交互网络构建方法，其特征在于，所述方法包括：对文献数据库进行检索以从中获取与预设关键词对应的目标文献；根据预存的基因库对所述目标文献中的文本信息进行匹配识别，以确定与所述基因库相匹配的文本信息对应的基因名；根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别，以确定与未被识别的文本信息对应的预测基因名；根据所述目标文献的基因名及预测基因名，从所述目标文献的文本语句中筛选得到候选语句；根据预置的交互类别识别模型对各所述候选语句进行关系识别，以确定各所述候选语句对应的交互类别；根据各所述候选语句中包含的基因名及对应的交互类别构建基因交互网络。2.根据权利要求1所述的基于自然语言处理的基因交互网络构建方法，其特征在于，所述根据预存的基因库对所述目标文献中的文本信息进行匹配识别之前，还包括：在预设基因数据中添加基因命名，以构建与所述预设基因数据对应的基因库。3.根据权利要求1所述的基于自然语言处理的基因交互网络构建方法，其特征在于，所述根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别，以确定与未被识别的文本信息对应的预测基因名，包括：根据所述自然语言识别模型中的预训练模型从所述未被识别的文本信息中提取对应的文字特征向量；根据所述自然语言识别模型中的单词标记模型对所述文本信息中各单词的文字特征向量进行预测，以得到各单词的标记预测结果；根据所述自然语言识别模型中的综合识别模型对所述文本信息中语句对应的标记预测结果进行综合识别，以确定所述语句中各单词对应的标记类型；根据所述文本信息中各单词对应的标记类型确定对应的预测基因名。4.根据权利要求3所述的基于自然语言处理的基因交互网络构建方法，其特征在于，所述根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别之前，还包括：根据预置的标记添加规则及与所述基因库相匹配的文本信息对应的基因名，在所述目标文献中添加对应的文本标记信息以得到基础训练数据；根据所述基础训练数据对初始自然语言识别模型进行训练，得到训练后的所述自然语言识别模型。5.根据权利要求1所述的基于自然语言处理的基因交互网络构建方法，其特征在于，所述根据所述目标文献的基因名及预测基因名，从所述目标文献的文本语句中筛选得到候选语句，包括：根据所述目标文献的基因名及预测基因名，确定所述目标文献中文本语句所包含基因的数量；根据各所述文本语句的基因数量，获取基因数量满足预置筛选条件的文本语句作为候选语句。6...

【专利技术属性】
技术研发人员：于红刚，李佳，吴练练，
申请(专利权)人：武汉大学人民医院湖北省人民医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人