文本分类方法、装置、设备、介质和产品制造方法及图纸

技术编号:42944764 阅读:26 留言:0更新日期:2024-10-11 16:02
本公开提供一种文本分类方法、装置、设备、介质和产品,所述方法包括获取待分类文本和预设分类词库;在所述待分类文本中,提取包含在所述预设分类词库中的词语,作为匹配词语;根据所述匹配词语、所述匹配词语的分类标识和分类影响参数,得到至少一个分类标识及所述至少一个分类标识对应的总影响参数值;选取满足第一预设条件的总影响参数值对应的分类标识作为所述待分类文本的分类结果。这样,提取出待分类文本的关键性分类词语,并利用分类影响参数,精准客观地从多个关键性分类词中选取待分类文本匹配的分类结果,不仅不需要依赖语境,而且更加高效、准确、灵活且可扩展。

【技术实现步骤摘要】

本公开的实施例涉及自然语言处理,具体涉及文本分类方法、装置、设备、介质和产品


技术介绍

1、文本分类是自然语言处理(nlp,natural language processing)中的一个基础且重要的任务,它涉及将文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。

2、现有的文本分类方法主要有以下三类:文本特征表示、浅层学习模型、深度学习模型。上述三类方法均适用于强语义场景,如情感分类和主题分类。这些方法要求充分掌握文本的上下文信息,即需要完整的段落或篇章作为处理基础。此外,为保证模型的准确性和泛化能力,还需要大量的训练数据作为支撑,一般而言,所需数据量应在十万条文本以上。同时,由于这些方法涉及复杂的计算过程,因此需要较大的算力支持,例如高性能的gpu或高配置cpu。然而,值得注意的是,这些方法通常耗时较长。具体来说,收集并整理训练数据集可能需要数月时间,训练一个机器学习文本分类模型可能需要数十小时,而训练一个深度学习文本分类模型则可能需要数天至数十天不等。


技术实现思路>

1、本公开的本文档来自技高网...

【技术保护点】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述选取满足第一预设条件的总影响参数值对应的分类标识作为所述待分类文本的分类结果,包括:

3.根据权利要求1所述的方法,其特征在于,所述预设分类词库通过以下词库构建操作生成:

4.根据权利要求3所述的方法,其特征在于,所述针对每个文本样本,利用所述文本样本标注的分类结果对所述文本样本中的词语进行标注,包括:

5.根据权利要求4所述的方法,其特征在于,所述针对每个分类词语,根据所述分类词语的分类结果概率分布,计算所述分类词语的交叉熵,包括:

6.根...

【技术特征摘要】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述选取满足第一预设条件的总影响参数值对应的分类标识作为所述待分类文本的分类结果,包括:

3.根据权利要求1所述的方法,其特征在于,所述预设分类词库通过以下词库构建操作生成:

4.根据权利要求3所述的方法,其特征在于,所述针对每个文本样本,利用所述文本样本标注的分类结果对所述文本样本中的词语进行标注,包括:

5.根据权利要求4所述的方法,其特征在于,所述针对每个分类词语,根据所述分类词语的分类结果概率分布,计算所述分类词语的交叉...

【专利技术属性】
技术研发人员:秦润张雷
申请(专利权)人:百融至信北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1