一种文本分类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31491356 阅读:28 留言:0更新日期:2021-12-18 12:28
本发明专利技术公开了一种文本分类方法、装置、计算机设备及存储介质。所述方法包括:对目标文本进行预处理得到多个词语;通过预设长文本分类模型将所述多个词语转化为多个词向量;通过所述预设长文本分类模型对所述词向量进行卷积,得到所述目标文本的特征向量;根据所述目标文本的特征向量确定所述目标文本的分类结果。利用该方法,能够提高文本分类的准确性,提高文本分类速率,建立良好的用户体验,节约审核人力成本。核人力成本。核人力成本。

【技术实现步骤摘要】
一种文本分类方法、装置、计算机设备及存储介质


[0001]本专利技术实施例涉及文本分类
,尤其涉及一种文本分类方法、装置、计算机设备及存储介质。

技术介绍

[0002]现有技术对长文本进行分类的方法一般包括以下三种:人工审核的方法、关键词匹配方法以及基于预训练模型的文本分类方法。
[0003]人工审核的方式是由人工对长文本进行逐条浏览从而确定长文本对应的分类标签。关键词匹配方法是通过收集和积累相应的关键词作为词库,通过将长文本与词库进行关键词匹配确定出目标文本,将目标文本对应的文本类别作为长文本的类别标签。基于预训练模型的文本分类方法为通过自监督学习从大规模数据中获得与具体任务无关的预训练模型,学习输入句子的每一个词语的上下文相关的表示,并将其转化为某一个词在一个特定上下文中的语义表征,从而确定出长文本对应的分类标签。
[0004]上述文本分类的方法存在以下缺点:人工审核方法主要依赖于审核者的主观意识判断,对长文本分类无法做到统一的标准;人工审核效率交底,无法快出准确处理海量长文本数据;人工审核成本高,耗费大量的人力物力。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:对目标文本进行预处理得到多个词语;通过预设长文本分类模型将所述多个词语转化为多个词向量;通过所述预设长文本分类模型对所述词向量进行卷积,得到所述目标文本的特征向量;根据所述目标文本的特征向量确定所述目标文本的分类结果。2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行预处理得到多个词语,包括:将目标文本按照第一预设策略切割成多个句子,所述句子的个数不超过第一预设值,所述第一预设策略为按照所述目标文本中出现的截止符号对所述目标文本进行切割;将每个所述句子按照第二预设策略切割成多个词语,每个所述句子切割成的词语的个数不超过第二预设值,所述第二预设策略为将所切割句子中的停用词去除后按照分词切割成多个词语;其中,所述第一预设值大于所述第二预设值。3.根据权利要求1所述的方法,其特征在于,所述词向量为一个三维向量,所述词向量的第一维度表示句子的个数,所述词向量的第二维度表示词语的个数,所述词向量的第三维度表示所述词向量的长度。4.根据权利要求1所述的方法,其特征在于,所述通过所述预设长文本分类模型对所述多个词向量进行卷积,得到所述目标文本的特征向量,包括:将所述多个词向量输入到所述预设长文本分类模型的第一卷积层进行第一次卷积,得到每个句子的特征向量;将所述每个句子的特征向量进行拼接得到完整句子特征向量;通过所述预设长文本分类模型的第二卷积层对所述完整句子特征向量进行第二次卷积,得到所述目标文本的特征向量。5.根据权利要求4所述的方法,其特征在于,所述将所述多个词向量输入到所述预设长文本分类模型的卷积层进行第一次卷积,得到每个句子的特征向量,包括:分别通过所述预设长文本分类模型的卷积层中的第一卷积核、第二卷积核以及第三卷积核对所述多个词向量进行第一次卷积,得到每个句子的特征向量;其中,所述第一卷积核为步长为第一数值,个数为预设数值的卷积核,所述第二卷...

【专利技术属性】
技术研发人员:王兆浪高佳强
申请(专利权)人:浙江核新同花顺网络信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1