当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于多特征自适应增强的化学药品分类方法及系统技术方案

技术编号:35014719 阅读:30 留言:0更新日期:2022-09-21 15:14
本发明专利技术公开了一种基于多特征自适应增强的化学药品分类方法及系统,该方法在模型方面,首先使用Pos

【技术实现步骤摘要】
一种基于多特征自适应增强的化学药品分类方法及系统


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于多特征自适应增强的化学药品分类方法及系统。

技术介绍

[0002]化学药品领域中文文本种类繁多,并且专业性相对于一般文本更高,对其分类需要更加严谨。这也导致了对于使用的人员专业性要求很高,理解学习成本较大。如何获取并对这些化学药品文本进行分类打上标签,是自然语言处理领域的一项任务。通过机器对这些化学药品文本的初步分类,有利于研究人员对某一特定领域进行研究、分析。文本分类任务是自然语言处理的一项基础任务,通过机器模型的学习,来推断出给定的文本(句子、文档等)的标签或标签集合。文本分类的应用非常广泛,如:二分类、多分类、多标签分类等。
[0003]近年来,文本的数量呈指数型增长,为了能在许多应用中准确地对文本进行分类,需要对机器学习方法有更深入的了解。许多机器学习方法在自然语言处理方面都取得了突破性的结果,这些学习算法的成功取决于其拟合数据中存在的非线性关系的能力。然而,寻找一种普适、通用的文本分类技术对研究人员来说仍然是一个巨本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多特征自适应增强的化学药品分类方法,其特征在于,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:S1对化学药品数据文本进行预处理,得到预处理后的数据文本,并划分出训练集、验证集和测试集;S2制作所述训练集的特征属性表以及按照字频率构建字典;S3将预处理后的数据文本和根据文本构建的字典输入到网络模型中,实现对训练样本进行特征处理,进而完成分类;S4将融合后的训练集文本输入一层的全连接神经网络作为分类器,衡量预测概率与真实类别的差距,并反向传播更新参数,每次更新参数后计算验证集上损失函数的值;S5训练所述网络模型,直至调整模型参数使的目标函数最优;所述测试阶段包括以下步骤:S6制作预处理后的测试集文本的特征属性以及构建字典;S7将预处理后的测试集文本和测试集对应的字典输入到训练后的网络模型中;S8得到测试集对应的化学药品样本文本的分类。2.根据权利要求1所述的基于多特征自适应增强的化学药品分类方法,其特征在于,所述步骤S2包括以下步骤:S21使用步骤S1得到的样本文本来制作字典,用不同的特殊字符代替数据文本中的特殊文本,所述特殊文本包括:字典里查不到的字、空白、数字、句子标识以及Mask遮罩;S22根据化学药品数据文本字编码的需要,向字典里添加其他关键字,完成字典的构建;S23将训练集文本中的重要属性字段提取出来构建特征属性表。3.根据权利要求2所述的基于多特征自适应增强的化学药品分类方法,其特征在于,采用网络模型对训练样本进行特征处理具体包括以下步骤:S31在构建的字典中查询所述训练集文本的每个字的字向量完成字编码,再经过位置编码得到向量化后的句子;S32对数据文本进行特征提取和特征交互,得到交互后向量化的句子;S33将步骤S31处理后的数据集文本进行特征增强;S34将步骤S32得到的结果和步骤S33得到的结果进行末端特征融合,最后输出分类结果。4.根据权利要求3所述的基于多特征自适应增强的化学药品分类方法,其特征在于,所述步骤S31具体包括:训练集文本对应句子维度为[batch_size,seq_len],使用构建的字典中查询每个字的字向量完成字编码,进而维度扩展为[[batch_size,seq_len,embed_dime],将字编码后的结果用sin和cos函数按以下公式进行位置编码:结果用sin和cos函数按以下公式进行位置编码:其中,pos指的是句中字的位置,i指的是字向量的维度,d
model
是指总共词向量的维度,得到的位置编码维度为[batch_size,seq_len,embed_dime],将其和字编码结果并相加得
到X
embedding
,将X
embedding
输入给特征提取模块中,其维度为[batch_size,seq_len,embed_dime],batch_size是一次训练所选取的样本数,seq_len是句子长度,embed_dime是字向量维度。5.根据权利要求4所述的基于多特征自适应增强的化学药品分类方法,其特征在于,所述步骤S32具体包括以下步骤:S321将向量化句子输入到9层的Transformer模型中,每一层Transformer进行特征的提取,然后经过softmax归一化输出分类结果;S322使用BiGRU模型和3
×
3的卷积将输入的结果融合到第二层的Transformer中,此时的输入为第一层Transformer的结果;再将结果通过4
×
4的卷积后融合到步骤S321中第五层的Transformer中;将步骤S321中的第一层的Transformer结果分别使用大小为2
×
Embed、3
×
Embed、4
×
Embed的矩阵进行卷积,将结果进行最大池化和连接,改变维度后与经过池化层的上一步4
×
4的卷积后的结果进行残差连接,再依次使用2
×
2和5
×
5的卷积对提取到的特征进行进一步的融合,把结果融合到步骤S321主干网络中的第八层Transformer中,其中,Embed是句子中每个字的维度;S323将步骤S321中的9层的Transformer模型组成的主干网络中的第3、6、9层Transformer的结果输出,将第二维度的各个向量重新组合成新的向量,即每一句话的第一个字到最后一个字都各自提取出来合并到一起,卷积池化和拼接得到结果Y
extraction
。6.根据权利要求5所述的基于多特征自适应增强的化学药品分类方法,其特征在于,所述步骤S33具体包括以下步骤:S331将步骤S31得到的向量化句子的各个特征提取出来,并且判断是长文本还是短文本,并返回一个长短文本的比例α;S332使用BiGRU模型经过维度的增加,分别使用宽为2、3、4,长为句长的卷积核对其进行卷积,通过最大池化和全连接,得到维度[batch_size,embed_dime
×
3],在经过自适应全局平均池化得到维度[batch_size,seq_len,embed_dime],最后将多个结果进行残差连接和层归一化,得到向量X
enhance_long
;S333经过维度的增加,分别使用宽为2、3、4,长为句长的卷积核对其进行卷积,然后通过最大池化和全连接,得到维度[batch_size,embed_dime
×
3],在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime],最后将多个结果进行残差连接和层归一化,得到向量X
enhance_short
;S334将向量X
enhance_long
和向量X
enhance_short
按照得到的长短文本比例α进行相加融合,得到向量Y
enhance
,其维度为[batch_size,seq_len,embed_dime],其公式如下所示:Y
enhance
=X
enhance_long
...

【专利技术属性】
技术研发人员:高尚兵苏睿张骏强王媛媛张海艳马甲林张正伟朱全银陈晓兵
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1