【技术实现步骤摘要】
一种基于科研文本的生物医学学科分类方法及装置
本专利技术属于文本分类
,特别涉及一种基于科研文本的生物医学学科分类方法及装置。
技术介绍
文本分类技术的不断发展与深入,己逐渐在邮件过滤、信息检索、文本情感分析、文本索引等领域表现出广泛的应用前景,在文本分类过程中,分类主题的细化,复杂的分类问题,以及对句子、文章的泛化处理的能力,如何将浅层的字面上的文本信息结合上下文信息、词与词之间的联系等作为分类问题的难点,急需对算法进行创新改革,突破瓶颈。各医疗卫生机构更加重视自身学科建设,以学科评价排名为亮点的各种医院排行榜越来越受关注。在开展学科评价排名,尤其针对学科的科研能力水平展开评价时,需要将评价数据按照评价体系的学科分类划分到不同的学科类别中,其中就涉及包括SCI论文、临床试验项目、授权专利等在内的生物医学文本数据。针对生物医学文本的学科分类,中国医院科技量值评价研究课题组先后采用词表匹配和基于支持向量机模型的文本分类算法。由于学科差异性,一些学科的研究内容与其他学科交叉较少,容易区分,利用词表和基于支持向量机模 ...
【技术保护点】
1.一种基于科研文本的生物医学学科分类方法,其特征在于,具体包括以下步骤:/nS1、获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;/nS2、利用Word2vec模型中的Skip-gram模型对预处理后的词进行训练,得到每个词对应的词向量;/nS3、构建改进的Inception网络,并利用该网络对词向量进行特征提取;/nS4、将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;/nS5、将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征 ...
【技术特征摘要】
1.一种基于科研文本的生物医学学科分类方法,其特征在于,具体包括以下步骤:
S1、获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;
S2、利用Word2vec模型中的Skip-gram模型对预处理后的词进行训练,得到每个词对应的词向量;
S3、构建改进的Inception网络,并利用该网络对词向量进行特征提取;
S4、将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;
S5、将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征输入经过训练的支持向量机模型,得到该待预测文本数据的类标。
2.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法,其特征在于,改进的Inception网络包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过FilterConcatenation层将相同尺寸的图按深度链接起来。
3.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法,其特征在于,深度可分离空洞卷积包括深度空洞卷积和逐点卷积,深度空洞卷积的卷积核的尺寸为3*3,空洞率为r;逐点卷积为卷积核大小为1*1的卷积运算。
4.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法,其特征在于,多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取具体包括和以下步骤:
对输入的词向量表示进行多次不同映射,第i头对于文本表示的映射表示为:
对于每一头的映射输出,进行一次注意力池化,第i头得到的注意力权重:
随后将每个表示的特征值与其权重进行加权求和:
使用tanh函数激活,得到每一头的输出:
将每一头的输出结果进行拼接后再进行融合,表示为:
其中,Wi(2)表示第i头的权重矩阵,表示第i头的偏置系数;X表示样本词向量;ui表示第i头中随机初始化的参数向量;⊕表示拼接操作;y(5)表示对H个注意力池化输出进行拼接的结果,y(6)表示融合的结果;W(6)表示权重矩阵,表示偏置系数。
5.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法,其特征在于,支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数,表示为:
其中,α为平衡因子,yi是标签数据,yi'是预测数据,δ是极小值,γ是聚焦权重,n为样本数量。
6.一种基于科研文本...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。