一种文本分类方法和装置制造方法及图纸

技术编号:26173847 阅读:17 留言:0更新日期:2020-10-31 13:58
本发明专利技术公开了一种文本分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。该实施方式能够对新事件进行自动分类,减少了人工成本,并可以提高分类的准确率,以及解决了类别数量难以确定的问题。

【技术实现步骤摘要】
一种文本分类方法和装置
本专利技术涉及计算机
,尤其涉及一种文本分类方法和装置。
技术介绍
电子商务的客服系统是客户与商家的沟通窗口。客服与客户的沟通方式多种多样,其中,在线沟通即客户和客服双方通过互联网进行在线文字交流,是最常见的沟通方式。客户和客服双方一次完整的在线沟通被定义为在线沟通事件,简称事件,通常一个事件包括客户和客服在文字上的多轮交流。客服系统产生的数据在分析客户需求、了解客服体验、制定商业决策等方面具有重大商业价值,而对事件的正确分类是一种客服数据分析的基础。事件分类(即对事件对应的文本分类)包含两个核心问题,即类别划分(指对于所有事件,划分为几类是合适的,每个类别分别代表什么含义)与类别归属(指对于某一个事件,该事件应该归属于哪一类)。目前,以上两个核心问题的解决方案仍然采用人为方式。事件类别划分一般由专业人员定义,类别的数量体现了划分的粒度;类别归属则由在线客服人员根据事件的文本内容以及由专业人员事先定义的类别划分来确定该事件的类别归属。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:现有方案依赖人工进行事件分类,成本高,准确率低,类别数量难以确定。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本分类方法和装置,能够对新事件进行自动分类,减少了人工成本,并可以提高分类的准确率,以及解决了类别数量难以确定的问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种文本分类方法。一种文本分类方法,包括:使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。可选地,使用分类器模型预测所述待分类文本的类别的步骤之前,包括:利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。可选地,使用词向量模型对待分类文本提取句向量的步骤,包括:对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;对预处理后的待分类文本提取句向量。可选地,从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量的步骤,包括:在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。根据本专利技术实施例的另一方面,提供了一种文本分类装置。一种文本分类装置,包括:句向量提取模块,用于使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;主题句向量提取模块,用于从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;文本类别预测模块,用于利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。可选地,还包括分类器模型训练模块,用于:利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。可选地,所述句向量提取模块还用于:对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;对预处理后的待分类文本提取句向量。可选地,所述主题句向量提取模块还用于:在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。根据本专利技术实施例的又一方面,提供了一种电子设备。一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本专利技术提供的文本分类方法。根据本专利技术实施例的又一方面,提供了一种计算机可读介质。一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术提供的文本分类方法。上述专利技术中的一个实施例具有如下优点或有益效果:使用词向量模型对待分类文本提取句向量,得到待分类文本的句向量集合;从待分类文本的句向量集合中提取待分类文本的主题句向量;利用待分类文本的主题句向量,使用分类器模型预测待分类文本的类别,其中,将与待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为待分类文本的类别。能够对新事件进行自动分类,减少了人工成本。利用已存分类文本的历史数据训练分类器模型,并利用K均值聚类算法和轮廓系数法训练得到分类器模型的最佳聚类数量,解决了类别数量难以确定的问题。对待分类文本进行预处理,再对预处理后的待分类文本提取句向量,去除对文本含义区分性较弱的文本要素,强化了文本在其语义上的差异。本专利技术实施例的上述各项改进可以提高分类的准确率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术第一实施例的文本分类方法的主要步骤示意图;图2是根据本专利技术第二实施例的文本分类方法的建模流程示意图;图3是根据本专利技术第三实施例的文本分类方法的推理流程示意图;图4是根据本专利技术第四实施例的文本分类装置的主要模块示意图;图5是本专利技术实施例可以应用于其中的示例性系统架构图;图6是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;/n从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;/n利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;
从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;
利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。


2.根据权利要求1所述的方法,其特征在于,使用分类器模型预测所述待分类文本的类别的步骤之前,包括:
利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。


3.根据权利要求1所述的方法,其特征在于,使用词向量模型对待分类文本提取句向量的步骤,包括:
对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;
对预处理后的待分类文本提取句向量。


4.根据权利要求3所述的方法,其特征在于,从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量的步骤,包括:
在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。


5.一种文本分类装置,其特征在于,包括:
句向量提取模块,用于使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;
主题句向量提取模块,用于...

【专利技术属性】
技术研发人员:徐文峰
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1