一种融入标签语义的文本分类改进方法技术

技术编号:37308843 阅读:55 留言:0更新日期:2023-04-21 22:52
本发明专利技术公开了一种融入标签语义的文本分类改进方法包括,对数据集中的文本和标签分别进行向量编码;处理文本编码向量得到预测标签分布和损失;处理标签编码向量得到标签向量表征和损失;采用LCM,将文本向量表征和标签向量表征作相似度分析;将得到的损失使用KLDivLoss损失函数衡量差异。本发明专利技术是基于标签混淆学习(LCM)提高文本分类任务的准确率,LCM使得标签分布变成软标签分布,对one

【技术实现步骤摘要】
一种融入标签语义的文本分类改进方法


[0001]本专利技术涉及计算机
,尤其涉及一种融入标签语义的文本分类改进方法。

技术介绍

[0002]目前,越来越多的人们通过手机、平板等便携式电子设备接触到各式各样的互联网信息。随着互联网的普及和发展,信息传播的速度也越来越快,不仅互联网信息的数量在逐渐增多,而且种类也越来越多。电子设备在接收和传输数据时给人们的生活带来了便利。但与此同时对于互联网上需要处理的庞大信息和海量的数据,如何准确地进行过滤、抽取等来为人们实现更高质量的服务,做到错误率尽可能低的程度,成为了现在必须要面对的一种新的技术挑战。
[0003]文本分类是自然语言处理常见的任务之一,在互联网处理庞大数据中扮演着重要的角色,主要应用于垃圾邮件识别、情感分析、主题分类、问答任务、意图识别(天气查询、歌曲搜索)等方面。传统方法在中文文本分类上的应用仍然存在挑战,例如具体应用在真正落地的时候往往会遇到数据量不足的问题;其次是传统基于BERT模型的大多数方法都采用使用BERT迁就下游任务的形式,首先将预训练模型应用到下游任务上,然后再本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融入标签语义的文本分类改进方法,其特征在于:包括,对数据集中的文本和标签分别进行向量编码;处理文本编码向量得到预测标签分布和处理文本编码向量得到预测标签分布;处理标签编码向量得到标签向量表征和处理标签编码向量得到标签向量表征;采用LCM,将文本向量表征和标签向量表征作相似度分析,得到模拟标签分布;将得到的预测标签分布和模拟标签分布使用KLDivloss损失函数衡量差异。2.一种融入标签语义的文本分类改进方法,其特征在于,包括,所述向量编码包括,对输入的文本x,处理成BERT的输入形式,将所有标签v采用Embedding进行编码,由函数、将和转化成编码向量的形式、,计算公式为,。3.如权利要求2所述的一种融入标签语义的文本分类改进方法,其特征在于:所述处理文本编码向量包括,将文本编码向量传入BERT中,BERT的输出有sequence_output向量和all_hidden_states向量,sequence_output是BERT最后一层整个句子中每个词所对应的词向量,all_hidden_states是BERT每层的输出向量,把all_hidden_states中每层的CLS向量作为输入传入到BiLSTM中,最后把BiLSTM的输出和词向量进行特征融合,接入全连接层得到文本向量表征,传入分类器,得到预测标签分布,预测真实标签。4.如权利要求3所述的一种融入标签语义的文本分类改进方法,其特征在于:所述处理文本编码向量还包括,将得到的文本编码向量传入到BERT预训练模型中,通过函数得到BERT的sequence_output和all_hidden_states,计算公式为,,其中,n表示词向量个数,表示BERT每一层的输出向量,S代表BERT的最后一层输出,表示BERT每一层的CLS向量,L表示所有CLS向量拼接成的新的输入向量,CLS向量每一层的每个文本的第一个向量携带了分类信息代表整个句子的句向量,且第一层是Embedding编码向量;通过BiLSTM,将BERT浅层和深层的特征信息遗忘和记忆传递后续的正确信息,提取每一层的CLS向量的特征信息,将BiLSTM的输出和词向量进行特征融合,接入全连接层得到文本向量特征,传入分类器,得到预测标签分布,计算公式如下,
,其中,是双向的长短时记忆网络,t
(i)
表示文本向量表征,FCN代表全连接层,Concat代表特征融合,是归一化指数函数得到的值...

【专利技术属性】
技术研发人员:成卫青韩博
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1