一种融合全局特征和局部特征的文本分类方法技术

技术编号：39417724 阅读：7 留言：0更新日期：2023-11-19 16:07

本发明专利技术公开了一种融合全局特征和局部特征的文本分类方法，包括：1、获取文本数据并进行预处理；2、使用大语言模型总结文本的内容；3、将总结出来的文本内容输入预训练语言模型中并获取文本特征；4、构建全局上下文特征网络；5、基于全局上下文特征构建注意力网络，获取文本的全局特征；6、获取局部特征，并构建特征融合层网络；7、构建文本分类层网络；8、融合全局特征和局部特征的文本分类网络模型的参数优化。本发明专利技术首先利用大语言模型对文本内容进行总结，找出文本的关键内容，然后融合文本的全局特征和局部特征，从而能帮助模型精准地识别出文本类别。识别出文本类别。识别出文本类别。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合全局特征和局部特征的文本分类方法

[0001]本专利技术属于自然语言处理领域，涉及到大语言模型、文本分类以及神经网络等技术，具体地说是一种融合全局特征和局部特征的文本分类方法。

技术介绍

[0002]文本分类是自然语言处理(NLP)领域的一个重要任务，它的目标是将文本数据划分为不同的类别。文本分类的应用广泛，涵盖了许多不同的领域，如新闻分类、社交媒体分析、知识管理、商业智能等。例如新闻分类系统可以帮助用户快速地找到他们感兴趣的新闻，提高信息检索的效率。此外，新闻分类还可以用于推荐系统，通过分析用户的阅读历史和兴趣，为用户推荐他们可能感兴趣的新闻。在知识管理方面，对专利文本进行分类，可以帮助研究人员、企业家和决策者更好地管理和利用这些信息。通过准确的分类，人们可以更快地找到与特定领域或主题相关的信息，提高了知识管理的效率和效果。与此同时，通过对科技文献数据的分类和分析，研究人员可以追踪和了解特定领域或技术的最新发展动态，比较不同公司和国家的科研方向的布局，发掘潜在的技术趋势和未来发展方向。这些信息对于制定创新战略、推动科研进步以及规避知识产权风险具有重要意义。
[0003]随着自然语言处理技术的不断发展，文本分类技术也得到了巨大的提升，但是仍然面临以下问题：
[0004]早期的文本分类技术主要基于人工编写的规则，这些规则通常需要领域专家的经验来制定，而且难以覆盖所有的情况。代表性的方法有朴素贝叶斯分类器、最大熵分类器等。这些方法在一定程度上可以满足文本分类的需求，但随着数据量的增加和类别的增多，

【技术保护点】

【技术特征摘要】
1.一种融合全局特征和局部特征的文本分类方法，其特征在于，是按如下步骤进行：步骤1、获取文本数据并进行预处理后，得到文本数据集D＝{d1,d2,...,d
i
,...,d
M
}，d
i
表示第i条文本，M表示文本的数量；设置文本数据集D＝{d1,d2,...,d
i
,...,d
M
}的类别标签，从而构建标签数据集Y＝{y1,y2,...,y
i
,...,y
M
}，并对每个标签进行独热编码，得到编码向量其中，y
i
表示第i条文本d
i
对应的标签，表示y
i
所对应的one
‑
hot编码向量，且hot编码向量，且表示y
i
在第c个类别上的取值；C表示标签类别；步骤2、利用式(1)生成总结后的文本内容步骤2、利用式(1)生成总结后的文本内容式(1)中，LLM表示大语言模型；prompt表示所设置的提示语，表示d
i
经过大语言模型提炼后的第i条文本；步骤3、将总结出来的文本内容输入预训练语言模型BERT中并获取文本特征；步骤3.1、在的开头和结尾分别添加标识符[CLS]和标识符[SEP]，并设置每条文本的长度为L，若的长度小于L，则使用标识符[PAD]对进行补齐；得到文本语料库A＝{a1,a2,...,a
i
,...,a
M
}，a
i
表示文本语料库中第i条文本数据；步骤3.2、基于预训练语言模型BERT的词典，根据词典中每一个字符的索引位置对a
i
进行字符编码，得到a
i
的字符编码信息E
tok,i
；根据A中a
i
的字符所在的句子位置信息，对a
i
进行编码，得到A中a
i
的句子位置编码信息E
seg,i
；根据A中a
i
的字符所在的位置信息，对a
i
进行编码，得到A中a
i
的字符位置编码信息E
pos,i
；从而利用式(2)得到a
i
的字符编码信息E
i
：E
i
＝E
tok,i
+E
seg,i
+E
pos,i (2)步骤3.3、将E
i
输入进预训练语言模型BERT中，并由预训练语言模型BERT的最后一层输出a
i
的文本特征h
i
，O表示文本特征的嵌入维度；步骤4、构建全局上下文特征网络；步骤4.1、利用式(4)得到a
i
的上下文前向特征的上下文前向特征式(4)中，表示前向LSTM网络；步骤4.2、利用式(5)得到a
i
的上下文后向特征的上下文后向特征式(5)中，表示后向LSTM网络；步骤4.3、利用式(6)得到a
i
的全局上下文特征的全局上下文特征步骤5、基于全局上下文特征构建注意力网络，获取文本的全局特征；
步骤5.1、利用式(7)得到a

【专利技术属性】
技术研发人员：王建，李浩，王佐成，吕孝忠，赵晨，
申请(专利权)人：数据空间研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人