长文本分类方法、电子设备和存储介质技术

技术编号：37371090 阅读：10 留言：0更新日期：2023-04-27 07:16

本申请提供长文本分类方法、电子设备和存储介质。该方法包括：提取长文本语料中的各个关键词；通过所提取的各个关键词的拼接，生成拼接语料；获取所述拼接语料的向量表示；将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，这样能够通过该长文本分类模型对待分类长文本进行分类，从而提高长文本分类时的准确率。而提高长文本分类时的准确率。而提高长文本分类时的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
长文本分类方法、电子设备和存储介质

[0001]本申请涉及人工智能
，具体而言，涉及长文本分类方法、电子设备和存储介质。

技术介绍

[0002]随着科学技术的飞速发展，人工智能(Artificial Intelligence，AI)技术越来越得到人们的重视。其中，自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，主要用于研究人与计算机之间用自然语言进行有效通信的各种理论和方法。在实际应用中，NLP通常可以用于机器翻译、机器人问答、知识图谱等

[0003]在NLP的相关技术中，对文本进行分类，从而识别该文本所属的分类类别是重要分支。目前对文本进行分类的技术方案主要应用于对短文本进行分类，这些技术方案在对长文本进行分类时的准确率通常较低。

技术实现思路

[0004]本申请实施例的目的在于提供长文本分类方法、电子设备和存储介质，用于解决现有技术中的问题。
[0005]本申请实施例第一方面提供了一种长文本分类方法，所述方法包括：
[0006]提取长文本语料中的各个关键词；
[0007]通过所提取的各个关键词的拼接，生成拼接语料；
[0008]获取所述拼接语料的向量表示；
[0009]将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，以通过所述长文本分类模型对待分类长文本进行分类。
[0010]于一实施例中，通过所提取的各个关键词的拼接，生成拼...

【技术保护点】

【技术特征摘要】
1.一种长文本分类方法，其特征在于，所述方法包括：提取长文本语料中的各个关键词；通过所提取的各个关键词的拼接，生成拼接语料；获取所述拼接语料的向量表示；将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，以通过所述长文本分类模型对待分类长文本进行分类。2.根据权利要求1所述的方法，其特征在于，通过所提取的各个关键词的拼接，生成拼接语料，具体包括：将所提取的各个关键词，根据在所述长文本语料中的先后顺序进行拼接，以生成所述拼接语料。3.根据权利要求1所述的方法，其特征在于，获取所述拼接语料的向量表示，具体包括：将所述拼接语料输入至bert模型，并获取所述bert模型的输出，作为所述拼接语料的向量表示。4.根据权利要求1所述的方法，其特征在于，提取长文本语料中的各个关键词，具体包括：将所述长文本语料输入至LDA分词模型，并获取所述LDA分词模型的输出，作为所提取的各个关键词。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：从语料库获取原始长文本语料；通过剔除所述述原始长文本语料中的停用词，以生成所述长文本语料。6.根据权利要求1所述的方法，其特征在于，在提取长文本语料中的各个关键词之后，所述方法还包括：确定各个关键词在所述长文本语料中的TF
‑
IDF值；根据各个关键词所对应的TF
‑
IDF值的大小，从各个关键词中选取出多个高频关键词...

【专利技术属性】
技术研发人员：胡卉，周彧，
申请(专利权)人：重庆新致金服信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人