长文本分类方法、电子设备和存储介质技术

技术编号:37371090 阅读:10 留言:0更新日期:2023-04-27 07:16
本申请提供长文本分类方法、电子设备和存储介质。该方法包括:提取长文本语料中的各个关键词;通过所提取的各个关键词的拼接,生成拼接语料;获取所述拼接语料的向量表示;将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,这样能够通过该长文本分类模型对待分类长文本进行分类,从而提高长文本分类时的准确率。而提高长文本分类时的准确率。而提高长文本分类时的准确率。

【技术实现步骤摘要】
长文本分类方法、电子设备和存储介质


[0001]本申请涉及人工智能
,具体而言,涉及长文本分类方法、电子设备和存储介质。

技术介绍

[0002]随着科学技术的飞速发展,人工智能(Artificial Intelligence,AI)技术越来越得到人们的重视。其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,主要用于研究人与计算机之间用自然语言进行有效通信的各种理论和方法。在实际应用中,NLP通常可以用于机器翻译、机器人问答、知识图谱等

[0003]在NLP的相关技术中,对文本进行分类,从而识别该文本所属的分类类别是重要分支。目前对文本进行分类的技术方案主要应用于对短文本进行分类,这些技术方案在对长文本进行分类时的准确率通常较低。

技术实现思路

[0004]本申请实施例的目的在于提供长文本分类方法、电子设备和存储介质,用于解决现有技术中的问题。
[0005]本申请实施例第一方面提供了一种长文本分类方法,所述方法包括:
[0006]提取长文本语料中的各个关键词;
[0007]通过所提取的各个关键词的拼接,生成拼接语料;
[0008]获取所述拼接语料的向量表示;
[0009]将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,以通过所述长文本分类模型对待分类长文本进行分类。
[0010]于一实施例中,通过所提取的各个关键词的拼接,生成拼接语料,具体包括:
[0011]将所提取的各个关键词,根据在所述长文本语料中的先后顺序进行拼接,以生成所述拼接语料。
[0012]于一实施例中,获取所述拼接语料的向量表示,具体包括:
[0013]将所述拼接语料输入至bert模型,并获取所述bert模型的输出,作为所述拼接语料的向量表示。
[0014]于一实施例中,提取长文本语料中的各个关键词,具体包括:
[0015]将所述长文本语料输入至LDA分词模型,并获取所述LDA分词模型的输出,作为所提取的各个关键词。
[0016]于一实施例中,所述方法还包括:
[0017]从语料库获取原始长文本语料;
[0018]通过剔除所述述原始长文本语料中的停用词,以生成所述长文本语料。
[0019]于一实施例中,在提取长文本语料中的各个关键词之后,所述方法还包括:
[0020]确定各个关键词在所述长文本语料中的TF

IDF值;
[0021]根据各个关键词所对应的TF

IDF值的大小,从各个关键词中选取出多个高频关键词,其中,所述高频关键词具体包括TF

IDF值大于预设阈值的关键词,或根据TF

IDF值从大到小的顺序进行排名时,名次大于预设名次的关键词;以及,
[0022]通过所提取的各个关键词的拼接,生成拼接语料,具体包括:
[0023]通过从各个关键词中所选取出多个高频关键词的拼接,生成拼接语料。
[0024]于一实施例中,将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,具体包括:
[0025]将所述向量表示和所述长文本语料的分类标签作为样本,添加至训练集;
[0026]利用所述训练集中的各个样本对待训练模型进行训练,以生成所述长文本分类模型,其中,所述待训练模型具体包括textCNN模型或SVM模型。
[0027]于一实施例中,所述方法还包括:
[0028]获取待分类长文本;
[0029]提取所述待分类长文本中的各个关键词;
[0030]将所述待分类长文本中的各个关键词进行拼接,以生成第二拼接语料;
[0031]获取所述第二拼接语料的向量表示;
[0032]将所述第二拼接语料的向量表示输入至所述长文本分类模型,并获取所述长文本分类模型的输出,作为所述待分类长文本的分类标签。
[0033]本申请实施例第二方面提供了一种电子设备,包括:
[0034]存储器,用以存储计算机程序;
[0035]处理器,用以执行本申请方法实施例中任一项所述的方法。
[0036]本申请实施例第三方面提供了一种存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行本申请方法实施例中任一项所述的方法。
[0037]采用本申请实施例所提供的长文本分类方法,包括先提取长文本语料中的各个关键词,然后通过所提取的各个关键词的拼接,生成拼接语料,然后获取该拼接语料的向量表示,然后将该向量表示和该长文本语料的分类标签作为样本,从而用于生成长文本分类模型,这样能够通过该长文本分类模型对待分类长文本进行分类,从而提高长文本分类时的准确率。
附图说明
[0038]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0039]图1为本申请一实施例提供的电子设备的结构示意图;
[0040]图2为本申请一实施例提供的长文本分类方法的具体流程示意图;
[0041]图3为本申请一实施例提供的长文本分类装置的具体结构示意图。
具体实施方式
[0042]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。在本申请的描述中,诸如“第一”、“第二”、“第三”等术语仅用于区分描述,而不能理解为指示或暗示相对重要性或先后顺序。
[0043]如前所述,目前对文本进行分类的技术方案主要应用于对短文本进行分类,这些技术方案在对长文本进行分类时的准确率通常较低。
[0044]有鉴于此,本申请实施例提供了一种长文本分类方法、装置、电子设备和存储介质,能够提高长文本分类的准确率。如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12可以通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。
[0045]该电子设备1可以是手机、笔记本电脑、台式电脑或其组成的大型服务器或服务器集群等。
[0046]如图2所示为本申请一实施例所提供的,长文本分类方法的流程示意图,该方法部分或全部步骤可由图1所示的电子设备1来执行,比如这里可以以电子设备1作为服务器来执行该方法作为示例,对该方法进行说明。该方法包括如下步骤:
[0047]步骤S21:提取长文本语料中的各个关键词。
[0048]其中,该关键词通常是指,对该长文本语料的真实语义具有关键影响的词,比如从词性层面来说,该关键词可以包括该长文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本分类方法,其特征在于,所述方法包括:提取长文本语料中的各个关键词;通过所提取的各个关键词的拼接,生成拼接语料;获取所述拼接语料的向量表示;将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,以通过所述长文本分类模型对待分类长文本进行分类。2.根据权利要求1所述的方法,其特征在于,通过所提取的各个关键词的拼接,生成拼接语料,具体包括:将所提取的各个关键词,根据在所述长文本语料中的先后顺序进行拼接,以生成所述拼接语料。3.根据权利要求1所述的方法,其特征在于,获取所述拼接语料的向量表示,具体包括:将所述拼接语料输入至bert模型,并获取所述bert模型的输出,作为所述拼接语料的向量表示。4.根据权利要求1所述的方法,其特征在于,提取长文本语料中的各个关键词,具体包括:将所述长文本语料输入至LDA分词模型,并获取所述LDA分词模型的输出,作为所提取的各个关键词。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:从语料库获取原始长文本语料;通过剔除所述述原始长文本语料中的停用词,以生成所述长文本语料。6.根据权利要求1所述的方法,其特征在于,在提取长文本语料中的各个关键词之后,所述方法还包括:确定各个关键词在所述长文本语料中的TF

IDF值;根据各个关键词所对应的TF

IDF值的大小,从各个关键词中选取出多个高频关键词...

【专利技术属性】
技术研发人员:胡卉周彧
申请(专利权)人:重庆新致金服信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1