一种文本分类方法和装置制造方法及图纸

技术编号:26173847 阅读:22 留言:0更新日期:2020-10-31 13:58
本发明专利技术公开了一种文本分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。该实施方式能够对新事件进行自动分类,减少了人工成本,并可以提高分类的准确率,以及解决了类别数量难以确定的问题。

【技术实现步骤摘要】
一种文本分类方法和装置
本专利技术涉及计算机
,尤其涉及一种文本分类方法和装置。
技术介绍
电子商务的客服系统是客户与商家的沟通窗口。客服与客户的沟通方式多种多样,其中,在线沟通即客户和客服双方通过互联网进行在线文字交流,是最常见的沟通方式。客户和客服双方一次完整的在线沟通被定义为在线沟通事件,简称事件,通常一个事件包括客户和客服在文字上的多轮交流。客服系统产生的数据在分析客户需求、了解客服体验、制定商业决策等方面具有重大商业价值,而对事件的正确分类是一种客服数据分析的基础。事件分类(即对事件对应的文本分类)包含两个核心问题,即类别划分(指对于所有事件,划分为几类是合适的,每个类别分别代表什么含义)与类别归属(指对于某一个事件,该事件应该归属于哪一类)。目前,以上两个核心问题的解决方案仍然采用人为方式。事件类别划分一般由专业人员定义,类别的数量体现了划分的粒度;类别归属则由在线客服人员根据事件的文本内容以及由专业人员事先定义的类别划分来确定该事件的类别归属。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;/n从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;/n利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;
从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;
利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。


2.根据权利要求1所述的方法,其特征在于,使用分类器模型预测所述待分类文本的类别的步骤之前,包括:
利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。


3.根据权利要求1所述的方法,其特征在于,使用词向量模型对待分类文本提取句向量的步骤,包括:
对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;
对预处理后的待分类文本提取句向量。


4.根据权利要求3所述的方法,其特征在于,从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量的步骤,包括:
在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。


5.一种文本分类装置,其特征在于,包括:
句向量提取模块,用于使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;
主题句向量提取模块,用于...

【专利技术属性】
技术研发人员:徐文峰
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1