文本分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：35095705 阅读：14 留言：0更新日期：2022-10-01 16:58

本申请涉及一种文本分类方法、装置、计算机设备和存储介质。所述方法包括：从文本数据中检索与所述文本数据中的关键词匹配的语句，得到类簇中心句；从所述文本数据中检索所述类簇中心句的相似句；基于所述类簇中心句和所述相似句，得到第一类簇；对所述文本数据中除所述第一类簇外的语句聚类，得到至少一个第二类簇；基于所述第一类簇和所述第二类簇，确定所述文本数据对应的类别标签。采用本方法能够降低文本分类的成本。低文本分类的成本。低文本分类的成本。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、计算机设备和存储介质

[0001]本申请涉及机器学习
，特别是涉及一种文本分类方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着社会经济的快速发展，很多行业都存在着大量的业务数据，对业务数据进行分析有助于了解用户关注的热点和痛点问题，从而提升服务质量。
[0003]传统方法中，首先利用已打标的文本数据对分类模型进行训练，再基于训练好的分类模型对业务下的文本数据进行打标，从而实现对业务数据的数据分析。但是，分类模型过于依赖已有的业务场景，无法适应业务场景的变化，在业务场景发生变化的时候，往往需要对分类模型重新训练。显然，这种方法会导致成本高的问题。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够降低成本的文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面，本申请提供了一种文本分类方法。所述方法包括：
[0006]从文本数据中检索与所述文本数据中的关键词匹配的语句，得到类簇中心句；
[0007]从所述文本数据中检索所述类簇中心句的相似句；
[0008]基于所述类簇中心句和所述相似句，得到第一类簇；
[0009]对所述文本数据中除所述第一类簇外的语句聚类，得到至少一个第二类簇；
[0010]基于所述第一类簇和所述第二类簇，确定所述文本数据对应的类别标签。
[0011]第二方面，本申请还提供了一种文本分类装置。所述装置包括：
[0012]...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：从文本数据中检索与所述文本数据中的关键词匹配的语句，得到类簇中心句；从所述文本数据中检索所述类簇中心句的相似句；基于所述类簇中心句和所述相似句，得到第一类簇；对所述文本数据中除所述第一类簇外的语句聚类，得到至少一个第二类簇；基于所述第一类簇和所述第二类簇，确定所述文本数据对应的类别标签。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：若所述文本数据是流式数据，则基于所述文本数据中各词的增长情况，从文本数据中提取出关键词；若所述文本数据是非流式数据，则基于所述文本数据中各词的数量占比，从文本数据中提取出关键词。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：从所述文本数据中提取关键词；确定从提取的关键词中筛选出的种子关键词；所述从文本数据中检索与所述文本数据中的关键词匹配的语句，得到类簇中心句包括：从所述文本数据中检索出与所述种子关键词语义接近的语句，得到类簇中心句。4.根据权利要求1所述的方法，其特征在于，所述对所述文本数据中除所述第一类簇外的语句聚类，得到至少一个第二类簇包括：对所述文本数据中除所述第一类簇外的语句聚类，得到至少一个初始类簇；针对每个初始类簇，从所述初始类簇的多个语句中确定所述初始类簇的类簇中心句；基于所述初始类簇中的类簇中心句和多个语句之间的距离，确定所述初始类簇的噪音语句；按照所述噪音语句针对所述初始类簇中的语句进行过滤，得到第二类簇。5.根据权利要求1所述的方法，其特征在于，所述对所述文本数据中除所述第一类簇外的语句聚类，得到至少一个第二类簇包括：对所述文本数据中除所述第一类簇外的语句聚类，...

【专利技术属性】
技术研发人员：刘赫阳，林仕锋，梁昊远，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人