短文本的分类方法、装置、电子设备和存储介质制造方法及图纸

技术编号：21736110 阅读：29 留言：0更新日期：2019-07-31 19:12

本发明专利技术实施例提供一种短文本的分类方法、装置、电子设备和存储介质。所述方法包括对目标短文本进行预处理，得到多个有效词；对有效词进行第一向量化处理，获取第一向量，第一向量表示每一有效词在目标短文本的重要度；根据第一向量，确定第一类别信息，第一类别信息包括所述目标短文本为每一类别的概率；对有效词进行第二向量化处理，获取第二向量，第二向量表示每一有效词在目标短文本的词序；根据第二向量，确定第二类别信息，第二类别信息包括目标短文本为每一类别的概率；根据第一类别信息和第二类别信息，确定目标短文本的类别。所述方法通过有效词的重要度结合有效词的词序，确定目标短文本的类别，提高了短文本的分类的准确率。

Classification methods, devices, electronic devices and storage media for short text

全部详细技术资料下载

【技术实现步骤摘要】
短文本的分类方法、装置、电子设备和存储介质
本专利技术实施例涉及一种通信
，特别是一种短文本的分类方法、装置、电子设备和存储介质。
技术介绍
客户咨询和投诉信息，以及公司内部咨询和投诉信息，会通过不同渠道(客服电话、营业厅、掌上营业厅、微厅及其他)，汇总到itos(IntegratedTestandOperationsSystem，集成测试和操作系统,)平台形成事件单。为了不影响客户满意度，需要及时回复并解决事件单提出的问题。目前这个过程是通过有经验的业务人员在前台人工回复并解决的，占用大量人力和时间。为了提高事件单的处理即时性，降低事件单量，需要对事件单短文本进行自动分类。现有技术用于短文本分类的算法很多，近几年较为常见的方法是采用k近邻分类(k-NN)、朴素贝叶斯分类(NaiveBayesNB)和支持向量机(SupportVectorMachine，SVM)等经典的机器学习算法。将短文本经过特征提取和特征筛选，得到特征词，针对各个特征词进行识别，最终确定短文本的分类，实验证明，该方法在类似事件单这样的短文本分类上能发挥一定的效果。现有技术存在以下问题：客户具有其个性化的表达方式，仅针对各个特征词进行识别，无法准确掌握客户的本意，导致对于短文本的分类的准确性不高。目前，现有技术还没有相应的方法来解决上述问题。
技术实现思路
针对现有技术的缺陷，本专利技术实施例提供一种短文本的分类方法、装置、电子设备和存储介质。一方面，本专利技术实施例提供一种短文本的分类方法，所述方法包括：对目标短文本进行预处理，得到多个有效词；对所述有效词进行第一向量化处理，获取第一...

【技术保护点】
1.一种短文本的分类方法，其特征在于，所述方法包括：对目标短文本进行预处理，得到多个有效词；对所述有效词进行第一向量化处理，获取第一向量，所述第一向量表示每一有效词在所述目标短文本的重要度；根据所述第一向量，确定所述目标短文本的第一类别信息，所述第一类别信息包括所述目标短文本为每一类别的概率；对所述有效词进行第二向量化处理，获取第二向量，所述第二向量表示每一有效词在所述目标短文本的词序；根据所述第二向量，确定所述目标短文本的第二类别信息，所述第二类别信息包括所述目标短文本为每一类别的概率；根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别。

【技术特征摘要】
1.一种短文本的分类方法，其特征在于，所述方法包括：对目标短文本进行预处理，得到多个有效词；对所述有效词进行第一向量化处理，获取第一向量，所述第一向量表示每一有效词在所述目标短文本的重要度；根据所述第一向量，确定所述目标短文本的第一类别信息，所述第一类别信息包括所述目标短文本为每一类别的概率；对所述有效词进行第二向量化处理，获取第二向量，所述第二向量表示每一有效词在所述目标短文本的词序；根据所述第二向量，确定所述目标短文本的第二类别信息，所述第二类别信息包括所述目标短文本为每一类别的概率；根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别。2.根据权利要求1所述的方法，其特征在于：所述第一向量的列数是索引词典的维度，所述索引词典的维度是预先确定的训练集的样本短文本的有效词的总数。3.根据权利要求1所述的方法，其特征在于：所述有效词的重要度是根据词频反文档频率的方式得到的。4.根据权利要求1所述的方法，其特征在于：根据所述第一向量，确定所述目标短文本的第一类别信息的步骤具体为:将所述第一向量输入至预先确定的词袋模型，输出所述第一类别信息，所述词袋模型基于随机森林分类器或基于支持向量机分类器。5.根据权利要求1所述的方法，其特征在于:对所述有效词进行第二向量化处理，获取第二向量的步骤具体为：对每一有效词进行处理，得到词向量，所述词向量的行数是有效词的个数，列数是预先确定的最大长度；根据所述词向量，得到第二向量。6.根据权利要求1所述的方法，其特征在于：根据所述第二向量，确定所述目标短文本的第二类别信息的步骤具体为:将所述第二向量...

【专利技术属性】
技术研发人员：潘钢，
申请(专利权)人：中国移动通信集团上海有限公司，中国移动通信集团公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人