基于自然语言处理的基因交互网络构建方法、装置及设备制造方法及图纸

技术编号:37603388 阅读:14 留言:0更新日期:2023-05-18 11:54
本发明专利技术公开了基于自然语言处理的基因交互网络构建方法、装置及设备,方法包括:进行检索获取目标文献,根据基因库对目标文献中的文本信息进行匹配识别以确定其中的基因名,对未被识别的文本信息进行预测识别以确定其中的预测基因名;对目标文献的文本语句进行筛选得到候选语句,对后续语句进行关系识别,基于候选语句的交互类别构建对应的基因交互网络。通过上述方法,基于基因库的匹配识别及自然语言预测识别确定目标文献中的基因名及预测基因名,对候选语句进行智能关系识别并确定交互类型后构建基因交互网络,无需人工进行基因实体的识别和基因关系提取,缩短了基因交互网络的构建时间,通过自然语言处理大幅提高了基因交互网络的构建效率。互网络的构建效率。互网络的构建效率。

【技术实现步骤摘要】
基于自然语言处理的基因交互网络构建方法、装置及设备


[0001]本专利技术涉及人工智能
,尤其涉及一种基于自然语言处理的基因交互网络构建方法、装置及设备。

技术介绍

[0002]人类大约有几万个基因,记录和传递着遗传信息,基因通过复制、转录、翻译等完成人体重要的生理过程。生物的各种性状大多是基因之间的相互作用的结果。基因互作网络是一组通过连接基因间功能关系的基因集合,连接基因的即为相互作用。基因间主要通过其基因产物(例如蛋白质)进行物理相互作用,或者其中一个基因改变或影响其他目的基因的活性而发挥作用。基因的功能产物,例如蛋白质,协同工作以实现特定的任务,并且通常相互关联或形成更复杂的结构。由于这些相互作用对大多数生物过程都很重要,因此了解基因间的相互作用对于探索基因的生物功能至关重要。
[0003]许多肿瘤的发生发展与基因间的相互作用相关,且肿瘤相关的基因的互作网络有助于阐述肿瘤发生发展机制并确定治疗方法及判断预后情况。近年来,高通量方法,如酵母双杂交、免疫共沉淀、质谱分析及串联亲和纯化等,已被广泛用于鉴定各种生物体蛋白质

蛋白质相互作用。
[0004]随着生物研究的不断深入,已知的基因间的相互作用的数量显著增加,现有技术方法为方便后续进行基因型分析通常会构建基因交互网络,然而现有技术方法中在构建基因交互网络时,进行基因实体的识别和关系的提取需要大量手动标记的数据集,然而基因实体的识别并对基因进行关联分析后手动标记基因之间的交互类型需要耗费大量的时间和人力,极大影响了基因交互网络的构建效率。因此,现有技术方法在基于基因分析并进行基因交互网络构建时存在效率较低的问题。

技术实现思路

[0005]本专利技术实施例提供了一种基于自然语言处理的基因交互网络构建方法、装置及设备,旨在解决现有技术方法在基于基因分析并进行基因交互网络构建时所存在的效率较低的问题。
[0006]第一方面,本专利技术实施例提供了一种基于自然语言处理的基因交互网络构建方法,所述方法包括:
[0007]对文献数据库进行检索以从中获取与预设关键词对应的目标文献;
[0008]根据预存的基因库对所述目标文献中的文本信息进行匹配识别,以确定与所述基因库相匹配的文本信息对应的基因名;
[0009]根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别,以确定与未被识别的文本信息对应的预测基因名;
[0010]根据所述目标文献的基因名及预测基因名,从所述目标文献的文本语句中筛选得到候选语句;
[0011]根据预置的交互类别识别模型对各所述候选语句进行关系识别,以确定各所述候选语句对应的交互类别;
[0012]根据各所述候选语句中包含的基因名及对应的交互类别构建基因交互网络。
[0013]第二方面,本专利技术实施例提供了一种基于自然语言处理的基因交互网络构建装置,其包括:
[0014]文献检索单元,用于对文献数据库进行检索以从中获取与预设关键词对应的目标文献;
[0015]基因名确定单元,用于根据预存的基因库对所述目标文献中的文本信息进行匹配识别,以确定与所述基因库相匹配的文本信息对应的基因名;
[0016]预测基因名获取单元,用于根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别,以确定与未被识别的文本信息对应的预测基因名;
[0017]候选语句筛选单元,用于根据所述目标文献的基因名及预测基因名,从所述目标文献的文本语句中筛选得到候选语句;
[0018]交互类别确定单元,用于根据预置的交互类别识别模型对各所述候选语句进行关系识别,以确定各所述候选语句对应的交互类别;
[0019]基因交互网络构建单元,用于根据各所述候选语句中包含的基因名及对应的交互类别构建基因交互网络。
[0020]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于自然语言处理的基因交互网络构建方法。
[0021]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于自然语言处理的基因交互网络构建方法。
[0022]本专利技术实施例提供了一种基于自然语言处理的基因交互网络构建方法、装置及设备,方法包括:进行检索获取目标文献,根据基因库对目标文献中的文本信息进行匹配识别以确定其中的基因名,对未被识别的文本信息进行预测识别以确定其中的预测基因名;对目标文献的文本语句进行筛选得到候选语句,对后续语句进行关系识别,基于候选语句的交互类别构建对应的基因交互网络。通过上述方法,能够基于基因库的匹配识别及自然语言预测识别确定目标文献中的基因名及预测基因名,对候选语句进行智能关系识别并确定交互类型后构建基因交互网络,无需人工进行基因实体的识别和基因关系提取,缩短了基因交互网络的构建时间,通过自然语言处理大幅提高了基因交互网络的构建效率。
附图说明
[0023]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本专利技术实施例提供的基于自然语言处理的基因交互网络构建方法的流程示意图;
[0025]图2为本专利技术实施例提供的基于自然语言处理的基因交互网络构建方法的另一流
程示意图;
[0026]图3为本专利技术实施例提供的基于自然语言处理的基因交互网络构建方法的子流程示意图;
[0027]图4为本专利技术实施例提供的基于自然语言处理的基因交互网络构建方法的又一流程示意图;
[0028]图5为本专利技术实施例提供的基于自然语言处理的基因交互网络构建方法的另一子流程示意图;
[0029]图6为本专利技术实施例提供的基于自然语言处理的基因交互网络构建方法的又一子流程示意图;
[0030]图7为本专利技术实施例提供的基于自然语言处理的基因交互网络构建方法的后一子流程示意图;
[0031]图8为本专利技术实施例提供的基于自然语言处理的基因交互网络构建装置的示意性框图;
[0032]图9为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的基因交互网络构建方法,其特征在于,所述方法包括:对文献数据库进行检索以从中获取与预设关键词对应的目标文献;根据预存的基因库对所述目标文献中的文本信息进行匹配识别,以确定与所述基因库相匹配的文本信息对应的基因名;根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别,以确定与未被识别的文本信息对应的预测基因名;根据所述目标文献的基因名及预测基因名,从所述目标文献的文本语句中筛选得到候选语句;根据预置的交互类别识别模型对各所述候选语句进行关系识别,以确定各所述候选语句对应的交互类别;根据各所述候选语句中包含的基因名及对应的交互类别构建基因交互网络。2.根据权利要求1所述的基于自然语言处理的基因交互网络构建方法,其特征在于,所述根据预存的基因库对所述目标文献中的文本信息进行匹配识别之前,还包括:在预设基因数据中添加基因命名,以构建与所述预设基因数据对应的基因库。3.根据权利要求1所述的基于自然语言处理的基因交互网络构建方法,其特征在于,所述根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别,以确定与未被识别的文本信息对应的预测基因名,包括:根据所述自然语言识别模型中的预训练模型从所述未被识别的文本信息中提取对应的文字特征向量;根据所述自然语言识别模型中的单词标记模型对所述文本信息中各单词的文字特征向量进行预测,以得到各单词的标记预测结果;根据所述自然语言识别模型中的综合识别模型对所述文本信息中语句对应的标记预测结果进行综合识别,以确定所述语句中各单词对应的标记类型;根据所述文本信息中各单词对应的标记类型确定对应的预测基因名。4.根据权利要求3所述的基于自然语言处理的基因交互网络构建方法,其特征在于,所述根据预置的自然语言识别模型对所述目标文献中未被识别的文本信息进行预测识别之前,还包括:根据预置的标记添加规则及与所述基因库相匹配的文本信息对应的基因名,在所述目标文献中添加对应的文本标记信息以得到基础训练数据;根据所述基础训练数据对初始自然语言识别模型进行训练,得到训练后的所述自然语言识别模型。5.根据权利要求1所述的基于自然语言处理的基因交互网络构建方法,其特征在于,所述根据所述目标文献的基因名及预测基因名,从所述目标文献的文本语句中筛选得到候选语句,包括:根据所述目标文献的基因名及预测基因名,确定所述目标文献中文本语句所包含基因的数量;根据各所述文本语句的基因数量,获取基因数量满足预置筛选条件的文本语句作为候选语句。6...

【专利技术属性】
技术研发人员:于红刚李佳吴练练
申请(专利权)人:武汉大学人民医院湖北省人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1