短文本的分类方法、装置、电子设备和存储介质制造方法及图纸

技术编号:21736110 阅读:29 留言:0更新日期:2019-07-31 19:12
本发明专利技术实施例提供一种短文本的分类方法、装置、电子设备和存储介质。所述方法包括对目标短文本进行预处理,得到多个有效词;对有效词进行第一向量化处理,获取第一向量,第一向量表示每一有效词在目标短文本的重要度;根据第一向量,确定第一类别信息,第一类别信息包括所述目标短文本为每一类别的概率;对有效词进行第二向量化处理,获取第二向量,第二向量表示每一有效词在目标短文本的词序;根据第二向量,确定第二类别信息,第二类别信息包括目标短文本为每一类别的概率;根据第一类别信息和第二类别信息,确定目标短文本的类别。所述方法通过有效词的重要度结合有效词的词序,确定目标短文本的类别,提高了短文本的分类的准确率。

Classification methods, devices, electronic devices and storage media for short text

【技术实现步骤摘要】
短文本的分类方法、装置、电子设备和存储介质
本专利技术实施例涉及一种通信
,特别是一种短文本的分类方法、装置、电子设备和存储介质。
技术介绍
客户咨询和投诉信息,以及公司内部咨询和投诉信息,会通过不同渠道(客服电话、营业厅、掌上营业厅、微厅及其他),汇总到itos(IntegratedTestandOperationsSystem,集成测试和操作系统,)平台形成事件单。为了不影响客户满意度,需要及时回复并解决事件单提出的问题。目前这个过程是通过有经验的业务人员在前台人工回复并解决的,占用大量人力和时间。为了提高事件单的处理即时性,降低事件单量,需要对事件单短文本进行自动分类。现有技术用于短文本分类的算法很多,近几年较为常见的方法是采用k近邻分类(k-NN)、朴素贝叶斯分类(NaiveBayesNB)和支持向量机(SupportVectorMachine,SVM)等经典的机器学习算法。将短文本经过特征提取和特征筛选,得到特征词,针对各个特征词进行识别,最终确定短文本的分类,实验证明,该方法在类似事件单这样的短文本分类上能发挥一定的效果。现有技术存在以下问题:客户具有其个性化的表达方式,仅针对各个特征词进行识别,无法准确掌握客户的本意,导致对于短文本的分类的准确性不高。目前,现有技术还没有相应的方法来解决上述问题。
技术实现思路
针对现有技术的缺陷,本专利技术实施例提供一种短文本的分类方法、装置、电子设备和存储介质。一方面,本专利技术实施例提供一种短文本的分类方法,所述方法包括:对目标短文本进行预处理,得到多个有效词;对所述有效词进行第一向量化处理,获取第一向量,所述第一向量表示每一有效词在所述目标短文本的重要度;根据所述第一向量,确定所述目标短文本的第一类别信息,所述第一类别信息包括所述目标短文本为每一类别的概率;对所述有效词进行第二向量化处理,获取第二向量,所述第二向量表示每一有效词在所述目标短文本的词序;根据所述第二向量,确定所述目标短文本的第二类别信息,所述第二类别信息包括所述目标短文本为每一类别的概率;根据所述第一类别信息和所述第二类别信息,确定所述目标短文本的类别。另一方面,本专利技术实施例提供一种短文本的分类装置,所述装置包括:预处理模块,用于对目标短文本进行预处理,得到多个有效词;第一获取模块,用于对所述有效词进行第一向量化处理,获取第一向量,所述第一向量表示每一有效词在所述目标短文本的重要度;第一确定模块,用于根据所述第一向量,确定所述目标短文本的第一类别信息,所述第一类别信息包括所述目标短文本为每一类别的概率;第二获取模块,用于对所述有效词进行第二向量化处理,获取第二向量,所述第二向量表示每一有效词在所述目标短文本的词序;第二确定模块,用于根据所述第二向量,确定所述目标短文本的第二类别信息,所述第二类别信息包括所述目标短文本为每一类别的概率;第三确定模块,用于根据所述第一类别信息和所述第二类别信息,确定所述目标短文本的类别。另一方面,本专利技术实施例还提供一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上方法的步骤。另一方面,本专利技术实施例还提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上方法的步骤。由上述技术方案可知,本专利技术实施例提供的短文本的分类方法、装置、电子设备和存储介质,所述方法通过有效词的重要度结合有效词的词序,确定目标短文本的类别,提高了短文本的分类的准确率。附图说明图1为本专利技术实施例提供的一种短文本的分类方法的流程示意图;图2为本专利技术又一实施例提供的总体算法的框架示意图;图3为本专利技术又一实施例提供的一种短文本的分类装置的结构示意图;图4为本专利技术又一实施例提供的一种电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术实施例一部分实施例,而不是全部的实施例。术语解释短文本:论坛、留言及回复、咨询、建议及意见反馈、短信/网络小纸条、即时聊天记录(例如微信、微博)的文本称为短文本,通常将少于一百五十字的文本称为短文本,当然文本的长度是相对的,不以一百五十字为限制。短文本的分类:由于文本短小,内容较少,特征不明显。常用的长文本分类方法已不适用,基于统计与向量空间模型的方法处理效果不好,针对这种情况,采用本专利技术实施例的方法对短文本进行分类。图1示出了本专利技术实施例提供的一种短文本的分类方法的流程示意图。如图1所示,本专利技术实施例提供的方法具体包括以下步骤:步骤11、对目标短文本进行预处理,得到多个有效词;本专利技术实施例提供的方法在短文本的分类装置上实施,短文本的分类装置可为计算机。可选地,计算机自itos平台提取事件单,针对每一事件单,自事件单提取得到短文本,短文本用于表达事件单的主要信息。可选地,主要信息包括事件单标题、事件单内容、官方回复原因和回复备注。可选地,在本专利技术实施例中,短文本典型的类别有6类,例如业务受理类、前台操作不当类、经查订单正常流转类等,针对一个待分类的目标短文本,采用本专利技术实施例的方法,可确定目标短文本属于6类中的哪一类。可选地,预处理主要包括三步:可选地,对短文本的文字进行筛选,去除无信息文字。举例来说,通过正则匹配去除无信息文字。可选地,对筛选后的短文本进行分词处理,得到多个词。举例来说,使用python的分词工具jieba进行分词处理。可选地,针对得到的多个词,进行筛选,去除停用词,得到多个有效词。举例来说,引入停用词词典去除停用词。步骤12、对所述有效词进行第一向量化处理,获取第一向量,所述第一向量表示每一有效词在所述目标短文本的重要度;可选地,有效词的重要度表示一个有效词在目标短文本中的重要程度,如果重要度越大,则说明该有效词具有很好的类别区分能力。可选地,可根据现有技术的方式预先确定每一有效词的重要度。可选地,可根据现有技术的方式根据所述有效词,得到对应的第一向量。步骤13、根据所述第一向量,确定所述目标短文本的第一类别信息,所述第一类别信息包括所述目标短文本为每一类别的概率;可选地,可将所述第一向量输入至现有技术的词袋模型,可输出第一类别信息。可选地,对于每个目标短文本,可得到词袋模型对于每个类别的预测概率值,且和为1。例如,输出的第一类别信息为(0.8,0.1,0.1,0,0,0),说明所述目标短文本为类别1的概率为80%,为类别2的概率为10%。步骤14、对所述有效词进行第二向量化处理,获取第二向量,所述第二向量表示每一有效词在所述目标短文本的词序;可选地,有效词的词序表示每一个有效词在目标短文本中的顺序,以及有效词与目标短文本中其他有效词的关系。可选地,在确定每一个有效词的词序后,执行第二向量化处理,得到对应的第二向量。步骤15、根据所述第二向量,确定所述目标短文本的第二类别信息,所述第二类别信息包括所述目标短文本为每一类别的概率;可选地,可将所述第二向量输入至预先确定的词序模型,可输出第二类别信息。可选地,词序模型是计算机预先训练得到的,词序模型可描述所述第二向量与第二类别信息的对应关系。可选地,对于每个目标短文本,可得到词序模本文档来自技高网...

【技术保护点】
1.一种短文本的分类方法,其特征在于,所述方法包括:对目标短文本进行预处理,得到多个有效词;对所述有效词进行第一向量化处理,获取第一向量,所述第一向量表示每一有效词在所述目标短文本的重要度;根据所述第一向量,确定所述目标短文本的第一类别信息,所述第一类别信息包括所述目标短文本为每一类别的概率;对所述有效词进行第二向量化处理,获取第二向量,所述第二向量表示每一有效词在所述目标短文本的词序;根据所述第二向量,确定所述目标短文本的第二类别信息,所述第二类别信息包括所述目标短文本为每一类别的概率;根据所述第一类别信息和所述第二类别信息,确定所述目标短文本的类别。

【技术特征摘要】
1.一种短文本的分类方法,其特征在于,所述方法包括:对目标短文本进行预处理,得到多个有效词;对所述有效词进行第一向量化处理,获取第一向量,所述第一向量表示每一有效词在所述目标短文本的重要度;根据所述第一向量,确定所述目标短文本的第一类别信息,所述第一类别信息包括所述目标短文本为每一类别的概率;对所述有效词进行第二向量化处理,获取第二向量,所述第二向量表示每一有效词在所述目标短文本的词序;根据所述第二向量,确定所述目标短文本的第二类别信息,所述第二类别信息包括所述目标短文本为每一类别的概率;根据所述第一类别信息和所述第二类别信息,确定所述目标短文本的类别。2.根据权利要求1所述的方法,其特征在于:所述第一向量的列数是索引词典的维度,所述索引词典的维度是预先确定的训练集的样本短文本的有效词的总数。3.根据权利要求1所述的方法,其特征在于:所述有效词的重要度是根据词频反文档频率的方式得到的。4.根据权利要求1所述的方法,其特征在于:根据所述第一向量,确定所述目标短文本的第一类别信息的步骤具体为:将所述第一向量输入至预先确定的词袋模型,输出所述第一类别信息,所述词袋模型基于随机森林分类器或基于支持向量机分类器。5.根据权利要求1所述的方法,其特征在于:对所述有效词进行第二向量化处理,获取第二向量的步骤具体为:对每一有效词进行处理,得到词向量,所述词向量的行数是有效词的个数,列数是预先确定的最大长度;根据所述词向量,得到第二向量。6.根据权利要求1所述的方法,其特征在于:根据所述第二向量,确定所述目标短文本的第二类别信息的步骤具体为:将所述第二向量...

【专利技术属性】
技术研发人员:潘钢
申请(专利权)人:中国移动通信集团上海有限公司中国移动通信集团公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1