【技术实现步骤摘要】
一种基于去偏见混合标签学习的内分泌疾病分类方法
[0001]本专利技术涉及自然语言文本处理
,特别涉及一种基于去偏见混合标签学习的内分泌疾病分类方法。
技术介绍
[0002]文本分类是一种将文本数据划分到不同类别的任务。它是自然语言处理领域的重要任务之一。在文本分类中,通过使用机器学习或深度学习技术,可以自动将给定的文本输入分配到预定义的类别中,例如情感分析、垃圾邮件过滤、新闻分类等。文本分类任务的关键在于提取文本的特征,并使用合适的算法进行模型训练和预测。通过文本分类,可以实现自动化处理大量文本数据、信息过滤和信息组织的目标,广泛应用于各种领域,如社交媒体分析、推荐系统、舆情监测等。
[0003]近年来,出现了许多提高文本分类准确性的方法,其中包括标签增强技术中的标签分布学习(Label Distribution Learning,LDL)和标签平滑(Label Smoothing,LS)。在标签分布学习中,分布标签由一个one
‑
hot编码向量和一个标签分布噪声组成。通过根据样本在各个标签 ...
【技术保护点】
【技术特征摘要】
1.一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:具体包括以下步骤:S1:生成Identity Phrase Templates Test Sets,IPTTS,用于做评估模型的测试集,在测试集中分别计算Equality Difference,FPED和False Negative Equality Difference,FNED这两个指标来评估模型的歧视性:Difference,FNED这两个指标来评估模型的歧视性:S2:构建数据集,数据集中包括有爬取的疾病文本样本,对所有疾病文本样本,制作相关词向量,按照比例并划分出训练集、验证集和试验集,通过代码构建字典;S3:将S2中处理过的数据集分别输入到ND
‑
Fast全局网络模型以及特征提取器中,提取文本样本的语义信息;S4:在Mix噪声标签融合模型中,使用S2中处理过的数据集和S3中得到的文本样本的语义信息进行标签和样本的融合,获得融合标签;S5:在输出层将S3中的语义信息输入一层的全连接神经网络作为分类器进行分类,然后再和S4中得到的融合标签的结果作为交叉熵损失,通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值;S6:训练分类模型,调整模型学习率和隐藏层个数这些参数来使综合考虑了精准度precision和召回率recall的metric最优,即F1
‑
score最优,获得训练完毕的文本样本的分类模型;S7:将目标文本样本输入训练完毕的分类模型中,得到目标文本样本的分类。2.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S2中疾病文本样本分别归属多个内分泌疾病分类类别,且任意内分泌疾病分类类别下均包含有多条疾病文本样本。3.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S2中构建数据集具体包括有以下步骤:S2.1:对疾病文本样本进行预处理,可视化输出各条样本的长度进行获取模型处理的最大句长,按照6:2:2的比例划分训练集、验证集和试验集;S2.2:对数据集内所有样本使用斯坦福GloVe词向量开源代码制作词向量,添加自定义的特殊字符来辅助分类;S2.3:预留字典的0
‑
19来放自定义的特殊符号,真正的字典编码从20开始。4.根据权利要求3所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S2.1中对疾病文本样本进行预处理具体为:S2.1.1:确定各文本样本对象分别对应预设各内分泌病分类类别中的真实分类类别,根据偏见,对疾病的类型做出偏见定义;S2.1.2:删除特殊符号、空格和乱码这些会影响判断的字,对已有的疾病文本样本进行去重和打乱排序,更新各个疾病文本样本;S2.1.3:针对S2.1.2中更新完毕的各个疾病文本样本打上标签存入文档,每一条数据
的格式为[内容,标签]。5.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S3提取文本样本的语义信息具体为:S3.1:将输入的文本样本进行字编码,再经过位置编码得到向量化后的文本样本;S3.2:将在S2中处理过的文本样本输入到Embed模块,输入句子的维度是[batch_size,seq_len],使用在S2中构建的字典中查询每个字的字向量完成字编码,维度扩展为[batch_size,seq_len,embed_dime],将字编码后的结果用sin和cos函数按以下公式进行位置编码:码:其中pos为句中字的位置,i为字向量的维度,d
model
为总共词向量的维度;得到的位置编码维度为[batch_size...
【专利技术属性】
技术研发人员:高尚兵,赵可钒,苏睿,王腾,蒋东山,张浩淼,张海艳,王媛媛,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。