一种基于对比学习的药物不良反应检测方法技术

技术编号：40995575 阅读：4 留言：0更新日期：2024-04-18 21:36

本发明专利技术公开了一种基于对比学习的药物不良反应检测方法，针对社交媒体数据中获取的药物不良反应信息，利用生物医学文本挖掘方法从中挖掘出有价值的信息，得到结构化数据；以词为细粒度利用Word2Vector方法预训练单词得到词向量作为初始值，同时将医学词典中得到外部知识引入词向量；采用深度学习中最先进的BERT算法对词向量进行编码，得到文本的隐层表示；利用混合对比学习方法优化融合特征表示，结合无监督对比学习UCL和有监督对比学习SCL的损失函数，设计新的损失函数对模型进行训练，提高模型的鲁棒性；最后利用Softmax函数预测存在药物不良反应的可能性，实现对药物不良反应的检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是对社交媒体数据中药物不良反应的检测，判断文本是否包含药物不良反应的内容，具体为一种基于对比学习的药物不良反应检测方法。

技术介绍

1、药物不良反应adr(adverse drug reaction)是指合格药品在用于预防、诊断或治疗疾病时产生的与用药目的无关的有害反应。药物不良反应作为与高发病率和死亡率相关的公共卫生问题之一，会导致患者住院时间延长、不必要的再入院和医疗保健支出增加等后果。据全球公共卫生组织统计，全球每年住院患者的adr发生率为10％～20％，其中约5％因严重adr死亡。根据发达国家的数据分析结果，adr相关住院率在美国为5.6％，德国为4.8％，英国为3.2％。据统计，我国是药品不良反应发生较为严重的地区，据统计我国每年在5000多万住院患者中至少有250万人因药品不良反应而入院，其中，25～50万人属于严重不良反应，约19万人因此而死亡，因此对于药物不良反应的监测与研究十分重要。

2、随着社交网络的飞速发展，人们偏向于通过社交媒体分享自己的用药经历，例如推特，微博，各大论坛，或者通过互联网向健康博主和在线医生咨询用药方面的问题。在社交媒体上发布的信息，包含了最新的用药信息，但是这些信息十分分散，如果依靠医生和药剂师从海量数据中通过手工提取，会花费大量时间而且容易出现错误，所以利用自然语言处理方法从社交媒体中提取药物不良反应信息更加方便和灵活。

3、针对药物不良反应的文本研究主要是从海量的生物医学相关文献、临床电子病历、社交媒体等文本中挖掘出相关知识，涉及到信息检索、文本分类

技术实现思路

1、本专利技术提供一种基于对比学习的药物不良反应检测方法，针对社交媒体数据中获取的药物不良反应信息，利用生物医学文本挖掘方法从中挖掘出有价值的信息，得到结构化数据；以词为细粒度利用word2vector方法预训练单词得到词向量作为初始值,，同时将医学词典中得到外部知识引入词向量；采用深度学习中最先进的bert算法对词向量进行编码，得到文本的隐层表示；利用混合对比学习方法优化融合特征表示，结合无监督对比学习ucl和有监督对比学习scl的损失函数，设计新的损失函数对模型进行训练，实现对药物不良反应的检测。

2、为实现上述目的，本专利技术的技术方案为：

3、一种基于对比学习的药物不良反应检测方法，包括以下步骤：

4、s1.从社交媒体数据中获取药物不良反应信息，利用生物医学文本挖掘方法从中挖掘出有价值的信息，得到结构化数据和关键词；

5、s2.以词为细粒度利用word2vec方法训练单词得到词向量，训练关键词得到关键词向量，将词向量与关键词向量进行维度对齐后，加权求和进行融合；

6、s3.采用深度学习中最先进的bert算法对词向量进行编码，得到文本的隐层表示；

7、s4.利用混合对比学习方法优化融合特征表示，结合无监督对比学习ucl和有监督对比学习scl的损失函数，设计新的损失函数对模型进行训练，提高模型的鲁棒性；

8、s5.最后利用softmax函数预测存在药物不良反应的可能性，实现对药物不良反应的检测。

9、进一步地，所述步骤s1具体为：

10、s11.使用爬虫工具从twitter、微博、医学论坛这类公开发表的社交媒体中爬取用户分享的用药数据，并对数据进行初步清洗，统一语言和存储格式；

11、s12.从网上搜索获取ade(adverse drug effect)、cadec(csiro adverse drugevent corpus)、pubmed这三种药物不良反应相关的公开数据集；

12、s13.将从社交媒体获取的数据与公开数据集结合，形成文本数据，每条数据是由n个单词组成得到一个句子sw＝{w1,w2,…,wi,…,wn}，其中：sw代表由单词组成的一个句子，w1代表句子中第1个单词，w2代表句子中第2个单词，wi代表句子中的第i个单词，wn代表句子中的第n个单词，将每条数据与国际人用药品注册技术协调会发布的meddra国际监管活动医学词典m进行相似匹配，利用文本分类技术判断文本中是否含有药物不良反应信息，同时将匹配出的词作为关键词加在每个样本文本之后，作为附加特征，记为kij，kij代表匹配给单词wi的第j个关键词，一个单词可能匹配出多个关键词，每个句子转换为单词-关键词对序列，即swk＝{(w1,k1j),(w2,k2j),…,(wi,kij),…,(wn,knj)}其中：swk代表由单词和关键词共同组成的一个句子，wi代表句子中的第i个单词，k1j代表匹配给单词w1的第j个关键词，k2j代表匹配给单词w2的第j个关键词，kij代表匹配给单词wi的第j个关键词，knj代表匹配给单词wn的第j个关键词；

13、s14.根据样本是否有药物不良反应的关键词，结合部分样本原有的标签，将原本划分为二分类标签，将包含药物不良反应信息的样本标注为1，其余样本标注为0，即标签记为y，y＝1或y＝0。

14、进一步地，所述步骤s2具体为：

15、s21.word2vce是一种高效的词向量学习方法，从gensim库中导word2vec，加载googlenews-vectors-negative300预训练词向量模型，将样本中原有的文本转化为词向量；其输出为其中：是第i个单词的词向量，ew是预训练的词嵌入查找表，wi是句子中的第i个单词，每个词向量的维度记为d；

16、s22.重复步骤s21，利用word2vec预训练词向量模型将部分有关键字的样本中的关键字转化为词向量其中：是第kij个关键词对应的词向量，ew是预训练的词嵌入查找表，kij是匹配给单词wi的第j个关键词，每个词向量的维度记为d；

17、s23.将每个单词与关键字融合配对，因为每个关键字对单词的贡献不同，为了将两者更好地融合，我们采用一种双线性注意力机制；具体来说，我们将分配给第i个单词的所有关键词kij表示为其大小为m乘以d，m是分配关键词的总数，d为每个词向量的维度记，ki是第i个单词的所有关键词词向量的集合，是第1个关键词对应的词向量，为第m个关键词对应的词向量，每个词的相关度计算其中：ai代表第i个单词和它对应的关键词的相关度，是第i个单词的词向量，wattn是双线性注意力的权重矩阵，是ki的转置，按照正态分布初始化；接着，通过以下方式获得关键词对其匹配单词的贡献度代表第i个单词获得的关键词贡献度；最后，通过以下方式将加权词典信息注入单词本文档来自技高网...

【技术保护点】

1.一种基于对比学习的药物不良反应检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于对比学习的药物不良反应检测方法，其特征在于，所述步骤S1具体为：

3.根据权利要求1所述的基于对比学习的药物不良反应检测方法，其特征在于，所述步骤S2具体为：

4.根据权利要求1所述的基于对比学习的药物不良反应检测方法，其特征在于，所述步骤S3具体为：

5.根据权利要求1所述的基于对比学习的药物不良反应检测方法，其特征在于，所述步骤S4具体为：

6.根据权利要求1所述的基于对比学习的药物不良反应检测方法，其特征在于，所述步骤S5具体为：

【技术特征摘要】

1.一种基于对比学习的药物不良反应检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于对比学习的药物不良反应检测方法，其特征在于，所述步骤s1具体为：

3.根据权利要求1所述的基于对比学习的药物不良反应检测方法，其特征在于，所述步骤s2具体为：

4....

【专利技术属性】
技术研发人员：袁家斌，丁瑶，查可可，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人