当前位置: 首页 > 专利查询>西北大学专利>正文

药物关系分类模型构建方法、药物关系分类方法及系统技术方案

技术编号:31484866 阅读:23 留言:0更新日期:2021-12-18 12:19
本发明专利技术公开了一种药物关系分类模型构建方法、药物关系分类方法及系统。本发明专利技术利用BioBERT中提取出与药物名相关的知识和使用关键语义子句代替全部句子,丢弃无关紧要词构建预训练数据集,对包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层和分类层的神经网络进行训练构建分类模型。本发明专利技术分类准确率提高,且减缓了标记噪声样本对模型训练时造成的负面影响。样本对模型训练时造成的负面影响。

【技术实现步骤摘要】
药物关系分类模型构建方法、药物关系分类方法及系统


[0001]本专利技术涉及药物关系分类模型构建及分类方法,具体涉及一种基于 BioBERT和GHM loss的药物关系分类模型构建及分类方法。

技术介绍

[0002]药物关系是指同时或在一段时间内服用两种或更多种药物所产生的综合效应。这种效应可分为协同效应,拮抗效应和非相互作用。药物之间的相互拮抗效应会对患者造成严重的健康风险。药物关系抽取(DDIE)任务是自然语言处理领域的典型的关系提取任务,旨在检测和识别药物对的语义关系,对减少药物安全事故,促进生物医学技术的发展具有重要意义。
[0003]近年来,随着深度学习的发展和应用,有越来越多基于神经网络的方法应用在药物关系抽取任务上,这类方法的创新集中在设计独特的注意力机制,堆叠更深的网络层数,依赖语法信息等方面。但是随着如BERT等预训练语言模型的出现,导致模型结构逐渐统一,性能也逐渐达到瓶颈。于是,有研究者开始使用与药物实体相关的知识去增加药物关系抽取的表现。但目前主流的利用药物知识的方法首先利用爬虫从药物数据库或维基百科上爬取与药物名相关的外部知识,然后通过神经网络将外部知识转为为计算机可以理解的语义向量,最后与药物文本结合去抽取药物关系。
[0004]现有的药物关系分类方法存在依赖外部知识和受标注噪声影响,导致药物关系分类的准确率不高的问题。

技术实现思路

[0005]针对现有技术的缺陷或不足,本专利技术提供了一种药物关系分类模型构建方法。
[0006]为此,本专利技术所提供的方法包括
[0007]步骤1,构建原始药物文本集并进行预处理
[0008]1.1构建原始药物文本集,所构建原始药物文本集由多个原始句子构成,每个原始句子中包含至少两个药物名称,所述至少两个药物名称中包含有两个目标药物名称;对每个原始句子中的两个目标药物名称的药物关系进行标注,得到药物关系标签集;
[0009]1.2采用BioBERT分词词典对每个原始句子进行分词处理;得到分词处理后的药物文本集;
[0010]1.3对每个分词处理后的句子中的两个目标药物名称中的其中一个目标药物名称前后均添加$符号,另一个目标药物名称前后均添加#符号;得到标记后的药物文本集;
[0011]1.4对步骤1.3处理后的集合中的每个token映射为该token在BioBERT 分词词典中的对应索引值;得到预处理后的药物文本集;
[0012]1.5选取每个原始句子中的关键词和非关键词;
[0013]1.6将步骤1.3处理后的每个句子中的关键词的token标记为1,非关键词和$符号及#符号的token标记为0,得到每个句子的关键语义子句标记向量;得到关键语义子句标记
向量集合;
[0014]步骤2,将所述的预处理后的药物文本集和关键语义子句标记向量集合作为输入,将所述的药物关系标签集作为输出,训练神经网络,获得药物关系分类模型;
[0015]所述的神经网络包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层;和分类层;
[0016]所述的语义和药物知识抽取层为经过预训练的语言模型BioBERT,所述语义和药物知识抽取层对预处理后的药物文本集进行处理,得到每个句子的表示矩阵;
[0017]所述药物知识增强层的输入为每个句子的表示矩阵和关键语义子句标记向量,将每个句子的表示矩阵中的非关键词对应的向量及$符号和#符号对应的向量删除,得到每个句子的关键句子表示矩阵;
[0018]所述语义和药物知识融合层对每个关键句子表示矩阵中所包含的药物名称的向量和非药物名称的向量进行融合,得到每个原始句子对应的句子表示向量,该句子表示向量作为分类层的输入。
[0019]进一步,所述语义和药物知识融合层是由依次连接的双向长短期记忆神经网络和全连接层块构成,将关键句子表示矩阵输入双向长短期记忆神经网络得到正向句子表示向量和反向的句子表示向量,全连接层块对正向句子表示向量和反向的句子表示向量进行融合,得到融合了正、反向语义的句子表示向量。
[0020]进一步,所述步骤1.5中采用基于语法依赖信息的方法选取每个原始句子中的关键词和非关键词。
[0021]进一步,所述的分类层包括全连接层和softmax函数层。
[0022]优选的,所述训练过程中使用GHM损失函数。
[0023]本专利技术同时提供了一种药物关系分类方法。为此,本专利技术所提供的所述方法包括:
[0024]步骤一,识别待分类句子中所包含的药物名称,如待分类句子中包含有两个药物名称时,将所含有的两个药物名称作为目标药物名称直接执行步骤二;如待分类句子中包含三个以上药物名称时,遍历其中的两个药物名称组合作为目标药物名称,分别执行步骤二;
[0025]步骤二,采用上述步骤1.2

1.6对待分类句子进行处理,得到待分类句子的预处理后的药物文本和关键语义子句标记向量;
[0026]步骤三,将所得预处理后的药物文本和关键语义子句标记向量输入权利要求1构建的模型中,输出待分类句子中任意两个药物名称之间的药物关系类别。
[0027]本专利技术还提供了一种药物关系分类系统。为此,本专利技术提供的药物关系分类系统包括数据预处理模块和分类模块,所述数据预处理模块用于执行上述步骤一和二;所述分类模块用于执行上述步骤三。
[0028]与现有技术相比,本专利技术具有以下技术特点:
[0029]本专利技术通过输入不经过药物致盲,且标记药物实体的文本,从BioBERT 中提取出与药物名相关的知识,使得分类准确率提高;
[0030]本专利技术通过使用关键语义子句代替全部句子,丢弃了无关紧要词,使得存储在药物实体对应向量表示中的药物知识的效果提升,使得分类准确率提高。
[0031]本专利技术通过使用GHM作为损失函数,减缓了标记噪声样本对模型训练时造成的负
面影响,使得分类准确率提高。
附图说明
[0032]图1为本专利技术的一个实施例中提供的一句话的语法依赖解析图。
具体实施方式
[0033]除非有特殊说明,本文中的术语和方法根据相关领域普通技术人员的认识理解或采用已有相关方法实现。
[0034]本专利技术所述的原始药物文本集可取自业内已经公开的数据集,或通过生物医学文献和论文等方式进行采集,获取的文本可以为文献和论文的局部或整体,但需要保证文本语义表达完整。所述原始药物文本集中的处理单元为原始句子,例如“Barbituratesand glutethimide should not be administered topatientsreceiving coumarin drug.”,其中“Barbiturates”、“glutethimide”和“coumarin drug”为药物名称词,剩下的单词为其他单词。
[0035]本专利技术所述的药物名称是指原始句子中所客观包含的药物名称,目标药物名称是指每次分析、标注、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种药物关系分类模型构建方法,其特征在于,所述方法包括步骤1,构建原始药物文本集并进行预处理1.1构建原始药物文本集,所构建原始药物文本集由多个原始句子构成,每个原始句子中包含至少两个药物名称,所述至少两个药物名称中包含有两个目标药物名称;对每个原始句子中的两个目标药物名称的药物关系进行标注,得到药物关系标签集;1.2采用BioBERT分词词典对每个原始句子进行分词处理;得到分词处理后的药物文本集;1.3对每个分词处理后的句子中的两个目标药物名称中的其中一个目标药物名称前后均添加$符号,另一个目标药物名称前后均添加#符号;得到标记后的药物文本集;1.4对步骤1.3处理后的集合中的每个token映射为该token在BioBERT分词词典中的对应索引值;得到预处理后的药物文本集;1.5选取每个原始句子中的关键词和非关键词;1.6将步骤1.3处理后的每个句子中的关键词的token标记为1,非关键词和$符号及#符号的token标记为0,得到每个句子的关键语义子句标记向量;得到关键语义子句标记向量集合;步骤2,将所述的预处理后的药物文本集和关键语义子句标记向量集合作为输入,将所述的药物关系标签集作为输出,训练神经网络,获得药物关系分类模型;所述的神经网络包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层;和分类层;所述的语义和药物知识抽取层为经过预训练的语言模型BioBERT,所述语义和药物知识抽取层对预处理后的药物文本集进行处理,得到每个句子的表示矩阵;所述药物知识增强层的输入为每个句子的表示矩阵和关键语义子句标记向量,将每个句子的表示矩阵中的非关键词对应的向量及$符号和#符号对应的向量删除,得到每个句子的关键句子表示矩阵;所述语义和药物知识融合层对每个关键句子表示矩阵中所包含的药物名称...

【专利技术属性】
技术研发人员:孙霞陈嘉诚金鑫邓瑶张梦延
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1