一种融合全局特征和局部特征的文本分类方法技术

技术编号:39417724 阅读:7 留言:0更新日期:2023-11-19 16:07
本发明专利技术公开了一种融合全局特征和局部特征的文本分类方法,包括:1、获取文本数据并进行预处理;2、使用大语言模型总结文本的内容;3、将总结出来的文本内容输入预训练语言模型中并获取文本特征;4、构建全局上下文特征网络;5、基于全局上下文特征构建注意力网络,获取文本的全局特征;6、获取局部特征,并构建特征融合层网络;7、构建文本分类层网络;8、融合全局特征和局部特征的文本分类网络模型的参数优化。本发明专利技术首先利用大语言模型对文本内容进行总结,找出文本的关键内容,然后融合文本的全局特征和局部特征,从而能帮助模型精准地识别出文本类别。识别出文本类别。识别出文本类别。

【技术实现步骤摘要】
一种融合全局特征和局部特征的文本分类方法


[0001]本专利技术属于自然语言处理领域,涉及到大语言模型、文本分类以及神经网络等技术,具体地说是一种融合全局特征和局部特征的文本分类方法。

技术介绍

[0002]文本分类是自然语言处理(NLP)领域的一个重要任务,它的目标是将文本数据划分为不同的类别。文本分类的应用广泛,涵盖了许多不同的领域,如新闻分类、社交媒体分析、知识管理、商业智能等。例如新闻分类系统可以帮助用户快速地找到他们感兴趣的新闻,提高信息检索的效率。此外,新闻分类还可以用于推荐系统,通过分析用户的阅读历史和兴趣,为用户推荐他们可能感兴趣的新闻。在知识管理方面,对专利文本进行分类,可以帮助研究人员、企业家和决策者更好地管理和利用这些信息。通过准确的分类,人们可以更快地找到与特定领域或主题相关的信息,提高了知识管理的效率和效果。与此同时,通过对科技文献数据的分类和分析,研究人员可以追踪和了解特定领域或技术的最新发展动态,比较不同公司和国家的科研方向的布局,发掘潜在的技术趋势和未来发展方向。这些信息对于制定创新战略、推动科研进步以及规避知识产权风险具有重要意义。
[0003]随着自然语言处理技术的不断发展,文本分类技术也得到了巨大的提升,但是仍然面临以下问题:
[0004]早期的文本分类技术主要基于人工编写的规则,这些规则通常需要领域专家的经验来制定,而且难以覆盖所有的情况。代表性的方法有朴素贝叶斯分类器、最大熵分类器等。这些方法在一定程度上可以满足文本分类的需求,但随着数据量的增加和类别的增多,基于规则的方法逐渐暴露出其局限性。
[0005]为了克服基于规则方法的局限性,研究者开始尝试使用机器学习算法,如支持向量机(SVM)和逻辑回归等,这种方法的主要思想是通过对大量已知类别的文本数据进行统计分析,得到文本特征和类别之间的关系,虽然这些方法在很多场景下取得了较好的效果,但这些算法在处理文本时使用了词袋的方式来提取文本特征,这种方式会打乱句子中单词的顺序,对文本语义特征造成了一定程度上的破坏,不能保证特征提取的准确性和全面性。而深度学习在文本分类中主要使用LSTM和GRU等,虽然LSTM和GRU在文本分类中取得了不错的结果,但是他们在处理长文本的时候是难以训练的。

技术实现思路

[0006]本专利技术是为了克服现有技术存在的不足之处,提出一种融合全局特征和局部特征的文本分类方法,以期能利用大语言模型强大的生成能力,从文本中提取出关键信息,并使用多种文本特征进行融合的方式,从而能提高文本分类的准确性和效率。
[0007]本专利技术为解决技术问题采用如下技术方案:
[0008]本专利技术一种融合全局特征和局部特征的文本分类方法的特点在于,是按如下步骤进行:
[0009]步骤1、获取文本数据并进行预处理后,得到文本数据集D={d1,d2,...,d
i
,...,d
M
},d
i
表示第i条文本,M表示文本的数量;
[0010]设置文本数据集D={d1,d2,...,d
i
,...,d
M
}的类别标签,从而构建标签数据集Y={y1,y2,...,y
i
,...,y
M
},并对每个标签进行独热编码,得到编码向量其中,y
i
表示第i条文本d
i
对应的标签,表示y
i
所对应的one

hot编码向量,且编码向量,且表示y
i
在第c个类别上的取值;C表示标签类别;
[0011]步骤2、利用式(1)生成总结后的文本内容
[0012][0013]式(1)中,LLM表示大语言模型;prompt表示所设置的提示语,表示d
i
经过大语言模型提炼后的第i条文本;
[0014]步骤3、将总结出来的文本内容输入预训练语言模型BERT中并获取文本特征;
[0015]步骤3.1、在的开头和结尾分别添加标识符[CLS]和标识符[SEP],并设置每条文本的长度为L,若的长度小于L,则使用标识符[PAD]对进行补齐;得到文本语料库A={a1,a2,...,a
i
,...,a
M
},a
i
表示文本语料库中第i条文本数据;
[0016]步骤3.2、基于预训练语言模型BERT的词典,根据词典中每一个字符的索引位置对a
i
进行字符编码,得到a
i
的字符编码信息E
tok,i
;根据A中a
i
的字符所在的句子位置信息,对a
i
进行编码,得到A中a
i
的句子位置编码信息E
seg,i
;根据A中a
i
的字符所在的位置信息,对a
i
进行编码,得到A中a
i
的字符位置编码信息E
pos,i
;从而利用式(2)得到a
i
的字符编码信息E
i

[0017]E
i
=E
tok,i
+E
seg,i
+E
pos,i
(2)
[0018]步骤3.3、将E
i
输入进预训练语言模型BERT中,并由预训练语言模型BERT的最后一层输出a
i
的文本特征h
i
,O表示文本特征的嵌入维度;
[0019]步骤4、构建全局上下文特征网络;
[0020]步骤4.1、利用式(4)得到a
i
的上下文前向特征
[0021][0022]式(4)中,表示前向LSTM网络;
[0023]步骤4.2、利用式(5)得到a
i
的上下文后向特征
[0024][0025]式(5)中,表示后向LSTM网络;
[0026]步骤4.3、利用式(6)得到a
i
的全局上下文特征
[0027][0028]步骤5、基于全局上下文特征构建注意力网络,获取文本的全局特征;
[0029]步骤5.1、利用式(7)得到a
i
的注意力得分
[0030][0031]式(7)中,表示注意力网络的待训练特征参数,tanh表示激活函数;T表示转置;
[0032]步骤5.2、利用式(8)得到a
i
的注意力权重
[0033]α
i
=softmax(W
S
s
i
)
ꢀꢀꢀ
(8)
[0034]式(8)中,表示注意力网络的待训练权重参数;
[0035]步骤5.3、利用式(9)计算a
i
的全局注意力上下文文本特征
[0036]k
i
=α
i
...

【技术保护点】

【技术特征摘要】
1.一种融合全局特征和局部特征的文本分类方法,其特征在于,是按如下步骤进行:步骤1、获取文本数据并进行预处理后,得到文本数据集D={d1,d2,...,d
i
,...,d
M
},d
i
表示第i条文本,M表示文本的数量;设置文本数据集D={d1,d2,...,d
i
,...,d
M
}的类别标签,从而构建标签数据集Y={y1,y2,...,y
i
,...,y
M
},并对每个标签进行独热编码,得到编码向量其中,y
i
表示第i条文本d
i
对应的标签,表示y
i
所对应的one

hot编码向量,且hot编码向量,且表示y
i
在第c个类别上的取值;C表示标签类别;步骤2、利用式(1)生成总结后的文本内容步骤2、利用式(1)生成总结后的文本内容式(1)中,LLM表示大语言模型;prompt表示所设置的提示语,表示d
i
经过大语言模型提炼后的第i条文本;步骤3、将总结出来的文本内容输入预训练语言模型BERT中并获取文本特征;步骤3.1、在的开头和结尾分别添加标识符[CLS]和标识符[SEP],并设置每条文本的长度为L,若的长度小于L,则使用标识符[PAD]对进行补齐;得到文本语料库A={a1,a2,...,a
i
,...,a
M
},a
i
表示文本语料库中第i条文本数据;步骤3.2、基于预训练语言模型BERT的词典,根据词典中每一个字符的索引位置对a
i
进行字符编码,得到a
i
的字符编码信息E
tok,i
;根据A中a
i
的字符所在的句子位置信息,对a
i
进行编码,得到A中a
i
的句子位置编码信息E
seg,i
;根据A中a
i
的字符所在的位置信息,对a
i
进行编码,得到A中a
i
的字符位置编码信息E
pos,i
;从而利用式(2)得到a
i
的字符编码信息E
i
:E
i
=E
tok,i
+E
seg,i
+E
pos,i (2)步骤3.3、将E
i
输入进预训练语言模型BERT中,并由预训练语言模型BERT的最后一层输出a
i
的文本特征h
i
,O表示文本特征的嵌入维度;步骤4、构建全局上下文特征网络;步骤4.1、利用式(4)得到a
i
的上下文前向特征的上下文前向特征式(4)中,表示前向LSTM网络;步骤4.2、利用式(5)得到a
i
的上下文后向特征的上下文后向特征式(5)中,表示后向LSTM网络;步骤4.3、利用式(6)得到a
i
的全局上下文特征的全局上下文特征步骤5、基于全局上下文特征构建注意力网络,获取文本的全局特征;
步骤5.1、利用式(7)得到a

【专利技术属性】
技术研发人员:王建李浩王佐成吕孝忠赵晨
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1