文本分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35095705 阅读:14 留言:0更新日期:2022-10-01 16:58
本申请涉及一种文本分类方法、装置、计算机设备和存储介质。所述方法包括:从文本数据中检索与所述文本数据中的关键词匹配的语句,得到类簇中心句;从所述文本数据中检索所述类簇中心句的相似句;基于所述类簇中心句和所述相似句,得到第一类簇;对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个第二类簇;基于所述第一类簇和所述第二类簇,确定所述文本数据对应的类别标签。采用本方法能够降低文本分类的成本。低文本分类的成本。低文本分类的成本。

【技术实现步骤摘要】
文本分类方法、装置、计算机设备和存储介质


[0001]本申请涉及机器学习
,特别是涉及一种文本分类方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着社会经济的快速发展,很多行业都存在着大量的业务数据,对业务数据进行分析有助于了解用户关注的热点和痛点问题,从而提升服务质量。
[0003]传统方法中,首先利用已打标的文本数据对分类模型进行训练,再基于训练好的分类模型对业务下的文本数据进行打标,从而实现对业务数据的数据分析。但是,分类模型过于依赖已有的业务场景,无法适应业务场景的变化,在业务场景发生变化的时候,往往需要对分类模型重新训练。显然,这种方法会导致成本高的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够降低成本的文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种文本分类方法。所述方法包括:
[0006]从文本数据中检索与所述文本数据中的关键词匹配的语句,得到类簇中心句;
[0007]从所述文本数据中检索所述类簇中心句的相似句;
[0008]基于所述类簇中心句和所述相似句,得到第一类簇;
[0009]对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个第二类簇;
[0010]基于所述第一类簇和所述第二类簇,确定所述文本数据对应的类别标签。
[0011]第二方面,本申请还提供了一种文本分类装置。所述装置包括:
[0012]聚类模块,用于从文本数据中检索与所述文本数据中的关键词匹配的语句,得到类簇中心句;从所述文本数据中检索所述类簇中心句的相似句;基于所述类簇中心句和所述相似句,得到第一类簇;对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个第二类簇;
[0013]确定模块,用于基于所述第一类簇和所述第二类簇,确定所述文本数据对应的类别标签。
[0014]在其中一个实施例中,所述聚类模块,还用于若所述文本数据是流式数据,则基于所述文本数据中各词的增长情况,从文本数据中提取出关键词;若所述文本数据是非流式数据,则基于所述文本数据中各词的数量占比,从文本数据中提取出关键词。
[0015]在其中一个实施例中,所述聚类模块,还用于从所述文本数据中提取关键词;确定从提取的关键词中筛选出的种子关键词;从所述文本数据中检索出与所述种子关键词语义接近的语句,得到类簇中心句。
[0016]在其中一个实施例中,所述聚类模块,还用于对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个初始类簇;针对每个初始类簇,从所述初始类簇的多个语句中
确定所述初始类簇的类簇中心句;基于所述初始类簇中的类簇中心句和多个语句之间的距离,确定所述初始类簇的噪音语句;按照所述噪音语句针对所述初始类簇中的语句进行过滤,得到第二类簇。
[0017]在其中一个实施例中,所述聚类模块,还用于对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个初始类簇;确定各所述初始类簇的类簇密度;基于所述类簇密度对所述至少一个初始类簇进行类簇过滤,得到过滤后剩余的第二类簇。
[0018]在其中一个实施例中,所述确定模块,还用于确定所述文本数据中的各类簇分别对应的类簇关键词;所述文本数据中的各类簇包括所述第一类簇和所述第二类簇;从所述文本数据中的多个类簇中确定各类簇分别对应的相似类簇;基于各类簇分别对应的相似类簇和类簇关键词,确定所述文本数据对应的类别标签。
[0019]在其中一个实施例中,所述确定模块,还用于分别确定各类簇的类簇中心句;通过对各类簇的类簇中心句之间的相似度比对,从所述文本数据的多个类簇中确定各类簇分别对应的相似类簇。
[0020]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请所述方法各实施例中的步骤。
[0021]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请所述方法各实施例中的步骤。
[0022]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请所述方法各实施例中的步骤。
[0023]上述文本分类方法、装置、计算机设备、存储介质和计算机程序产品,从文本数据中检索与文本数据中的关键词匹配的语句,得到类簇中心句;从文本数据中检索类簇中心句的相似句;基于类簇中心句和相似句,得到第一类簇;对文本数据中除第一类簇外的语句聚类,得到至少一个第二类簇;基于第一类簇和第二类簇,确定文本数据对应的类别标签。首先基于文本数据中的关键词检索出第一类簇,再聚类除第一类簇外的语句得到第二类簇,最后基于第一类簇和第二类簇确定相应的类别标签,能够无监督地确定出文本数据的类别标签,所以即使文本数据中涉及到了新的业务场景,也能很好地适应,相较于基于分类模型的传统方式,降低了成本。
附图说明
[0024]图1为一个实施例中文本分类方法的应用环境图;
[0025]图2为一个实施例中文本分类方法的流程示意图;
[0026]图3a为一个实施例中文本分类方法的简易流程示意图;
[0027]图3b为一个实施例中检索第一类簇的类簇中心句的简易流程示意图;
[0028]图4为一个实施例中文本分类装置的结构框图;
[0029]图5为一个实施例中计算机设备的内部结构图;
[0030]图6为另一个实施例中计算机设备的内部结构图。
具体实施方式
[0031]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0032]本申请实施例提供的文本分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以从文本数据中检索与文本数据中的关键词匹配的语句,得到类簇中心句;服务器104可以从文本数据中检索类簇中心句的相似句;服务器104可以基于类簇中心句和相似句,得到第一类簇,并对文本数据中除第一类簇外的语句聚类,得到至少一个第二类簇;服务器104可以基于第一类簇和第二类簇,确定文本数据对应的类别标签。可以理解,服务器104可以将文本数据对应的类别标签返回至终端102。终端102可以展示文本数据对应的类别标签。
[0033]其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:从文本数据中检索与所述文本数据中的关键词匹配的语句,得到类簇中心句;从所述文本数据中检索所述类簇中心句的相似句;基于所述类簇中心句和所述相似句,得到第一类簇;对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个第二类簇;基于所述第一类簇和所述第二类簇,确定所述文本数据对应的类别标签。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述文本数据是流式数据,则基于所述文本数据中各词的增长情况,从文本数据中提取出关键词;若所述文本数据是非流式数据,则基于所述文本数据中各词的数量占比,从文本数据中提取出关键词。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述文本数据中提取关键词;确定从提取的关键词中筛选出的种子关键词;所述从文本数据中检索与所述文本数据中的关键词匹配的语句,得到类簇中心句包括:从所述文本数据中检索出与所述种子关键词语义接近的语句,得到类簇中心句。4.根据权利要求1所述的方法,其特征在于,所述对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个第二类簇包括:对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个初始类簇;针对每个初始类簇,从所述初始类簇的多个语句中确定所述初始类簇的类簇中心句;基于所述初始类簇中的类簇中心句和多个语句之间的距离,确定所述初始类簇的噪音语句;按照所述噪音语句针对所述初始类簇中的语句进行过滤,得到第二类簇。5.根据权利要求1所述的方法,其特征在于,所述对所述文本数据中除所述第一类簇外的语句聚类,得到至少一个第二类簇包括:对所述文本数据中除所述第一类簇外的语句聚类,...

【专利技术属性】
技术研发人员:刘赫阳林仕锋梁昊远
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1