一种文本分类方法、装置、设备以及存储介质制造方法及图纸

技术编号:37601686 阅读:8 留言:0更新日期:2023-05-18 11:52
本申请公开了一种文本分类方法,用以解决现有技术利用文本分类模型进行文本分类时,文本分类效果较差,且模型训练过程需要耗费大量人力算力资源以及模型训练周期较长的问题。方法包括:根据预先构建的第一查询词库中各查询词的排序结果,生成第二查询词库;将获取到的待分类文本输入所述第二查询词库,判断所述第二查询词库中是否存在与所述待分类文本匹配的关键词;当判断结果为否时,将所述待分类文本输入第一查询词库,确定所述待分类文本在所述第一查询词库中对应的至少一个关键词;根据所述关键词,对所述待分类文本进行分类。对所述待分类文本进行分类。对所述待分类文本进行分类。

【技术实现步骤摘要】
一种文本分类方法、装置、设备以及存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本分类方法、装置、设备以及存储介质。

技术介绍

[0002]近年来随着自然语言处理技术的迅猛发展,基于自然语言处理技术研发的诸如问答系统、评论分析、情感分析、客户画像、内容搜索功能也被广泛地运用在了各行各业。
[0003]其中,文本分类技术是自然语言处理算法中较为核心的关键技术,通过文本分类技术可以对待处理的自然语言文本进行分类,匹配出与文本对应的关键词、主题词或者标签,以便后续可以根据分类结果对自然语言文本进行处理。
[0004]目前常用的文本分类技术主要可以分为两大类:基于传统机器学习算法构建的分类模型而实现的文本分类技术,如TF

IDF文本分类;以及基于深度学习算法构建的分类模型而实现的文本分类技术,如长短期记忆网络(Long Short

Term Memory,LSTM)等。
[0005]采用训练文本分类模型来实现的文本分类技术,其文本分类结果的精准度完全依赖于模型训练的结果。而现有的文本分类模型的好坏,主要依赖于训练数据集的好坏,为了保证训练得到的分类模型的效果,在训练过程中,需要大量经过精准人工标注的训练样本数据,训练过程需要耗费大量的人力资源以及算力资源,导致对文本分类模型的训练需要耗费更长时间,并且对文本分类模型的参数调整也不够精确。
[0006]由此可见,如何提高文本分类的分类速度以及精确度,从而更好地实现自然语言处理,成为目前本领域相关技术人员亟待解决的技术问题。

技术实现思路

[0007]本申请实施例提供一种文本分类方法,用以解决现有技术利用文本分类模型进行文本分类时,文本分类效果较差,且模型训练过程需要耗费大量人力算力资源以及模型训练周期较长的问题。
[0008]本申请实施例还提供一种文本分类装置,用以解决现有技术利用文本分类模型进行文本分类时,文本分类效果较差,且模型训练过程需要耗费大量人力算力资源以及模型训练周期较长的问题。
[0009]本申请实施例还提供一种文本分类设备,用以解决现有技术利用文本分类模型进行文本分类时,文本分类效果较差,且模型训练过程需要耗费大量人力算力资源以及模型训练周期较长的问题。
[0010]本申请实施例还提供一种计算机可读存储介质,用以解决现有技术利用文本分类模型进行文本分类时,文本分类效果较差,且模型训练过程需要耗费大量人力算力资源以及模型训练周期较长的问题。
[0011]本申请实施例采用下述技术方案:
[0012]一种文本分类方法,包括:根据预先构建的第一查询词库中各查询词的排序结果,
生成第二查询词库;将获取到的待分类文本输入所述第二查询词库,判断所述第二查询词库中是否存在与所述待分类文本匹配的关键词;当判断结果为否时,将所述待分类文本输入第一查询词库,确定所述待分类文本在所述第一查询词库中对应的至少一个关键词;根据所述关键词,对所述待分类文本进行分类。
[0013]一种文本分类装置,包括:查询词库构建单元,用于根据预先构建的第一查询词库中各查询词的排序结果,生成第二查询词库;判断单元,用于将获取到的待分类文本输入所述第二查询词库,判断所述第二查询词库中是否存在与所述待分类文本匹配的关键词;关键词匹配单元,用于当判断结果为否时,将所述待分类文本输入第一查询词库,确定所述待分类文本在所述第一查询词库中对应的至少一个关键词;分类单元,用于根据所述关键词,对所述待分类文本进行分类。
[0014]一种文本分类设备,包括:
[0015]处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:根据预先构建的第一查询词库中各查询词的排序结果,生成第二查询词库;将获取到的待分类文本输入所述第二查询词库,判断所述第二查询词库中是否存在与所述待分类文本匹配的关键词;当判断结果为否时,将所述待分类文本输入第一查询词库,确定所述待分类文本在所述第一查询词库中对应的至少一个关键词;根据所述关键词,对所述待分类文本进行分类。
[0016]一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:根据预先构建的第一查询词库中各查询词的排序结果,生成第二查询词库;将获取到的待分类文本输入所述第二查询词库,判断所述第二查询词库中是否存在与所述待分类文本匹配的关键词;当判断结果为否时,将所述待分类文本输入第一查询词库,确定所述待分类文本在所述第一查询词库中对应的至少一个关键词;根据所述关键词,对所述待分类文本进行分类。
[0017]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0018]采用本申请实施例提供的文本分类方法,文本分类主要是基于预先构建的第一查询词库来实现的,第一查询词库中保存有通过聚类算法得到的不同类型所对应的常用关键词,进而针对待分类文本,可以直接在该第一查询词库中进行查询,根据查询结果可以确定出与待分类文本对应的关键词,进而可以根据该些关键词所属类型,确定待分类文本的类型,进而完成对待分类文本的分类,采用本申请实施例所提供的文本分类方法,文本分类过程并不依赖与预先训练的分类模型,因而相比于现有文本分类方法,本申请实施例所提供的文本分类方法分类速度更高且准确性更高。同时为了提高文本分类效率,在本申请实施例中,可以根据第一查询词库中各查询词的排序结果,进一步地生成第二查询词库,在将待分类文本输入第一查询词库进行查询之前,首先通过第二查询词库进行匹配关键词的查询,只有在第二查询词库未查询到关键词时,才将待分类文本输入第一查询词库进行关键词查询,由于相比于第一查询词库,第二查询词库中所保存的关键词数量更少且重要程度更高,因而通过本申请实施例所提供的上述方法,可以进一步地提高了文本分类的效率。
附图说明
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0020]图1为本申请实施例提供的一种文本分类方法的具体流程示意图;
[0021]图2为本申请实施例提供的一种文本分类装置的具体结构示意图;
[0022]图3为本申请实施例提供的一种文本分类设备的具体结构示意图。
具体实施方式
[0023]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0025]本申请实施例提供的一种文本分类方法,用以解决现有技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:根据预先构建的第一查询词库中各查询词的排序结果,生成第二查询词库;将获取到的待分类文本输入所述第二查询词库,判断所述第二查询词库中是否存在与所述待分类文本匹配的关键词;当判断结果为否时,将所述待分类文本输入第一查询词库,确定所述待分类文本在所述第一查询词库中对应的至少一个关键词;根据所述关键词,对所述待分类文本进行分类。2.根据权利要求1所述的方法,其特征在于,所述根据预先构建的第一查询词库中各查询关键词的,生成第二查询词库,具体包括:确定所述第一查询词库中各查询词的出现频次;根据所述第一查询词库中各查询词的所述出现频次,对所述第一查询词库中的各查询词进行排序,得到排序结果;根据所述排序结果,生成所述第二查询词库。3.根据权利要求1所述的方法,其特征在于,预先构建第一查询词库,具体包括:获取历史语料数据,根据预设的聚类算法,对所述历史语料数据进行聚类处理,确定查询词;根据确定的所述查询词,构建所述第一查询词库。4.根据权利要求1所述的方法,其特征在于,所述确定所述待分类文本在所述第一查询词库中对应的至少一个关键词,具体包括:对所述待分类文本进行分词处理,得到词序列;根据所述词序列中各词语对应的词性,对所述词序列进行筛选,获得第二词序列;确定所述第二词序列中各词语的词权重,根据所述词权重对所述第二词序列进行筛选,得到第三词序列;根据语义相似度算法,确定所述第三词序列中各词语与所述第一查询词库中各查询词的语义相似度;根据所述语义相似度,在所述第一查询词库中确定与所述待分类文本对应的关键词。5.根据权利要求4所述的方法,其特征在于,所述确定所述第二词序列中各词语的词权重,具体包括:确定所述第二词序列中各词语的第一词频,其中,所述第一词频表示所述词语在所述待分类文本中的出现频次;确定所述第二词序列中各词语的第二词频,其中,...

【专利技术属性】
技术研发人员:刘梅琛李昊张承炘徐秀云
申请(专利权)人:人保信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1