【技术实现步骤摘要】
融合迭代式主动学习的生物医学关系抽取方法及系统
[0001]本专利技术涉及医学信息处理
,具体涉及一种融合迭代式主动学习的生物医学关系抽取方法及系统。
技术介绍
[0002]随着生物医学研究的迅速发展,生物医学文献大幅增长,其中蕴含的领域知识(如疾病基因关系、药物靶点关系等),对生物医学研究和应用至关重要。但这些文献大多存储于非结构化电子文本中,若使用人工标注方法从文献中获取相关知识费时费力,因此,自动、高效地抽取隐含在生物医学文献中的实体关系十分重要。目前,大多数基于深度学习的关系抽取模型训练依赖足够的标签数据,而现有的生物医学关系抽取公开数据集大多是以二元关系为主且数据规模较小(如药物相互作用关系DDI、蛋白质相互作用关系PPIs、药物副作用关系ADE等),所以如何从生物医学文献获取大规模、高质量的标注数据是当前研究难点。
[0003]目前生物医学关系抽取方法研究主要是基于循环神经网络RNN、预训练模型BERT等在一些公开数据集(如药物相互作用关系DDI、蛋白质相互作用关系PPIs、药物副作用关系ADE等) ...
【技术保护点】
【技术特征摘要】
1.一种融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,包括:从PubMed医学文献数据库获取生物医学文献的摘要文本,对文本数据进行预处理,获取句子级别训练集;随机从训练集中抽取部分样本作为初始语料集对实体关系联合抽取框架进行训练,获得初始模型;该模型包括上下文编码器和标签解码器;所述上下文编码器用于对输入的句子进行编码,再将实体对两两拼接输入到全连接层,输出实体对的向量表示;所述标签解码器用于对实体对进行分类,得到最后的实体关系联合抽取结果。2.根据权利要求1所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,利用初始模型获取每条样本对应的预测标签序列及每个预测标签的概率,结合主动学习策略计算每条未标注样本的不确定度;基于不确定度值进行样本排序,对排序靠前的样本进行标注,加入到已标注样本集中,对样本集进行更新。3.根据权利要求2所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,基于更新后的标注样本集,重新训练关系抽取模型,得到优化模型,进而再进行主动学习样本筛选,重新训练优化抽取模型,重复以上步骤,直到模型性能达到预设精度。4.根据权利要求3所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,所述主动学习策略为随机采样、最小置信度、边缘采样、熵采样、不确定度采样、贝叶斯采样或Core
‑
set样本集采样中的一种。5.根据权利要求4所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,结合人类疾病基因数据库,构建疾病
‑
基因真实关系的数据字典;结合构建的数据字典中疾病、基因的CUI编号以及名称对SemMed数据库做关联查询...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。