【技术实现步骤摘要】
一种融合全局特征和局部特征的文本分类方法
[0001]本专利技术属于自然语言处理领域,涉及到大语言模型、文本分类以及神经网络等技术,具体地说是一种融合全局特征和局部特征的文本分类方法。
技术介绍
[0002]文本分类是自然语言处理(NLP)领域的一个重要任务,它的目标是将文本数据划分为不同的类别。文本分类的应用广泛,涵盖了许多不同的领域,如新闻分类、社交媒体分析、知识管理、商业智能等。例如新闻分类系统可以帮助用户快速地找到他们感兴趣的新闻,提高信息检索的效率。此外,新闻分类还可以用于推荐系统,通过分析用户的阅读历史和兴趣,为用户推荐他们可能感兴趣的新闻。在知识管理方面,对专利文本进行分类,可以帮助研究人员、企业家和决策者更好地管理和利用这些信息。通过准确的分类,人们可以更快地找到与特定领域或主题相关的信息,提高了知识管理的效率和效果。与此同时,通过对科技文献数据的分类和分析,研究人员可以追踪和了解特定领域或技术的最新发展动态,比较不同公司和国家的科研方向的布局,发掘潜在的技术趋势和未来发展方向。这些信息对于制定创新战略、推动科研进步以及规避知识产权风险具有重要意义。
[0003]随着自然语言处理技术的不断发展,文本分类技术也得到了巨大的提升,但是仍然面临以下问题:
[0004]早期的文本分类技术主要基于人工编写的规则,这些规则通常需要领域专家的经验来制定,而且难以覆盖所有的情况。代表性的方法有朴素贝叶斯分类器、最大熵分类器等。这些方法在一定程度上可以满足文本分类的需求,但随着数据量的增加和类别的增多,
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种融合全局特征和局部特征的文本分类方法,其特征在于,是按如下步骤进行:步骤1、获取文本数据并进行预处理后,得到文本数据集D={d1,d2,...,d
i
,...,d
M
},d
i
表示第i条文本,M表示文本的数量;设置文本数据集D={d1,d2,...,d
i
,...,d
M
}的类别标签,从而构建标签数据集Y={y1,y2,...,y
i
,...,y
M
},并对每个标签进行独热编码,得到编码向量其中,y
i
表示第i条文本d
i
对应的标签,表示y
i
所对应的one
‑
hot编码向量,且hot编码向量,且表示y
i
在第c个类别上的取值;C表示标签类别;步骤2、利用式(1)生成总结后的文本内容步骤2、利用式(1)生成总结后的文本内容式(1)中,LLM表示大语言模型;prompt表示所设置的提示语,表示d
i
经过大语言模型提炼后的第i条文本;步骤3、将总结出来的文本内容输入预训练语言模型BERT中并获取文本特征;步骤3.1、在的开头和结尾分别添加标识符[CLS]和标识符[SEP],并设置每条文本的长度为L,若的长度小于L,则使用标识符[PAD]对进行补齐;得到文本语料库A={a1,a2,...,a
i
,...,a
M
},a
i
表示文本语料库中第i条文本数据;步骤3.2、基于预训练语言模型BERT的词典,根据词典中每一个字符的索引位置对a
i
进行字符编码,得到a
i
的字符编码信息E
tok,i
;根据A中a
i
的字符所在的句子位置信息,对a
i
进行编码,得到A中a
i
的句子位置编码信息E
seg,i
;根据A中a
i
的字符所在的位置信息,对a
i
进行编码,得到A中a
i
的字符位置编码信息E
pos,i
;从而利用式(2)得到a
i
的字符编码信息E
i
:E
i
=E
tok,i
+E
seg,i
+E
pos,i (2)步骤3.3、将E
i
输入进预训练语言模型BERT中,并由预训练语言模型BERT的最后一层输出a
i
的文本特征h
i
,O表示文本特征的嵌入维度;步骤4、构建全局上下文特征网络;步骤4.1、利用式(4)得到a
i
的上下文前向特征的上下文前向特征式(4)中,表示前向LSTM网络;步骤4.2、利用式(5)得到a
i
的上下文后向特征的上下文后向特征式(5)中,表示后向LSTM网络;步骤4.3、利用式(6)得到a
i
的全局上下文特征的全局上下文特征步骤5、基于全局上下文特征构建注意力网络,获取文本的全局特征;
步骤5.1、利用式(7)得到a
技术研发人员:王建,李浩,王佐成,吕孝忠,赵晨,
申请(专利权)人:数据空间研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。