融合迭代式主动学习的生物医学关系抽取方法及系统技术方案

技术编号:37487683 阅读:36 留言:0更新日期:2023-05-07 09:26
本发明专利技术提供一种融合迭代式主动学习的生物医学关系抽取方法及系统,属于医学信息处理技术领域,从PubMed等生物医学文献库中获取用于关系抽取的标准数据集;结合主动学习算法筛选出有价值的样本对模型进行训练;利用训练好的关系抽取模型,对待抽取的句子进行处理,得到最后的实体关系联合抽取结果,抽取出生物医学文献中的知识;其中,关系抽取模型为使用融合迭代式主动学习的生物医学关系抽取模型训练方法训练得到。本发明专利技术融合多种主动学习策略的生物医学实体关系联合抽取框架,实现迭代式的主动学习样本筛选和实体关系联合抽取模型训练,有效减少了实体关系联合抽取过程中模型训练所需要的训练集数量,提高了模型训练效率,降低了模型训练成本。降低了模型训练成本。降低了模型训练成本。

【技术实现步骤摘要】
融合迭代式主动学习的生物医学关系抽取方法及系统


[0001]本专利技术涉及医学信息处理
,具体涉及一种融合迭代式主动学习的生物医学关系抽取方法及系统。

技术介绍

[0002]随着生物医学研究的迅速发展,生物医学文献大幅增长,其中蕴含的领域知识(如疾病基因关系、药物靶点关系等),对生物医学研究和应用至关重要。但这些文献大多存储于非结构化电子文本中,若使用人工标注方法从文献中获取相关知识费时费力,因此,自动、高效地抽取隐含在生物医学文献中的实体关系十分重要。目前,大多数基于深度学习的关系抽取模型训练依赖足够的标签数据,而现有的生物医学关系抽取公开数据集大多是以二元关系为主且数据规模较小(如药物相互作用关系DDI、蛋白质相互作用关系PPIs、药物副作用关系ADE等),所以如何从生物医学文献获取大规模、高质量的标注数据是当前研究难点。
[0003]目前生物医学关系抽取方法研究主要是基于循环神经网络RNN、预训练模型BERT等在一些公开数据集(如药物相互作用关系DDI、蛋白质相互作用关系PPIs、药物副作用关系ADE等)上进行模型训练和关系本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,包括:从PubMed医学文献数据库获取生物医学文献的摘要文本,对文本数据进行预处理,获取句子级别训练集;随机从训练集中抽取部分样本作为初始语料集对实体关系联合抽取框架进行训练,获得初始模型;该模型包括上下文编码器和标签解码器;所述上下文编码器用于对输入的句子进行编码,再将实体对两两拼接输入到全连接层,输出实体对的向量表示;所述标签解码器用于对实体对进行分类,得到最后的实体关系联合抽取结果。2.根据权利要求1所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,利用初始模型获取每条样本对应的预测标签序列及每个预测标签的概率,结合主动学习策略计算每条未标注样本的不确定度;基于不确定度值进行样本排序,对排序靠前的样本进行标注,加入到已标注样本集中,对样本集进行更新。3.根据权利要求2所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,基于更新后的标注样本集,重新训练关系抽取模型,得到优化模型,进而再进行主动学习样本筛选,重新训练优化抽取模型,重复以上步骤,直到模型性能达到预设精度。4.根据权利要求3所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,所述主动学习策略为随机采样、最小置信度、边缘采样、熵采样、不确定度采样、贝叶斯采样或Core

set样本集采样中的一种。5.根据权利要求4所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,结合人类疾病基因数据库,构建疾病

基因真实关系的数据字典;结合构建的数据字典中疾病、基因的CUI编号以及名称对SemMed数据库做关联查询...

【专利技术属性】
技术研发人员:周雪忠苏鑫杨扩
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1