文本数据的分类方法、设备及存储介质技术

技术编号:31228126 阅读:15 留言:0更新日期:2021-12-08 09:38
本发明专利技术实施例提供一种文本数据的分类方法、设备及存储介质,通过获取待分类的目标物品的评价文本数据,输入预设的分类模型;通过分类模型,获取评价文本数据对应的文本词序列的词向量矩阵,对词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合得到融合特征向量,根据融合特征向量确定评价文本数据的分类结果;根据分类结果对目标物品进行标注和/或将分类结果发送给目标终端设备。本发明专利技术实施例通过分类模型实现对评价文本数据的分类,且在分类过程中通过提取评价文本数据的融合特征向量,考虑更多评价文本数据的特征信息,提高对评价文本数据分类的准确率和召回率,降低维护难度,也无需配置繁琐的逻辑规则,便于实施。便于实施。便于实施。

【技术实现步骤摘要】
文本数据的分类方法、设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种文本数据的分类方法、设备及存储介质。

技术介绍

[0002]随着电商平台的发展,网络购物逐渐成为当下流行的元素,商品的售后服务,也由线下向线上转移。消费者可通过电商网络平台进行退换修操作,并将商品质量问题点以文本形式反馈给商家,例如评价文本。由于退换修操作也多种多样,商品质量问题点更是五花八门。电商平台将这些质量问题点归类,再呈现给商家,对于质量问题较多且质量问题严重的商品,取消活动提报、搜索降权,从而驱动商家改良商品质量,为消费者提供高质量商品。
[0003]现有技术中,对于目标物品的评价文本数据,通常通过关键词命中的方式进行评价文本数据质量问题分类,主要判断评价文本数据命中某些关键词,从而找到关键词对应的问题类型,进而对评价文本数据进行商品质量问题归类。
[0004]现有技术通过关键词命中的方式进行评价文本数据质量问题分类,维护成本高,召回率低,准确率低,并且需要繁琐的逻辑规则才能实现,不便于实施。

技术实现思路

[0005]本专利技术实施例提供一种文本数据的分类方法、设备及存储介质,用以提高评价文本数据的分类的准确率和召回率,降低维护难度,便于实施。
[0006]第一方面,本专利技术实施例提供一种文本数据的分类方法,包括:
[0007]获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
[0008]通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
[0009]根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。
[0010]第二方面,本专利技术实施例提供一种评价文本数据的分类设备,包括:
[0011]获取模块,用于获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
[0012]分类模块,用于通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
[0013]输出模块,用于根据所述分类结果对所述目标物品进行标注和/或将所述分类结
果发送给目标终端设备。
[0014]第三方面,本专利技术实施例提供一种计算机设备,包括:
[0015]存储器,用于存储计算机执行指令;
[0016]处理器,用于运行所述存储器中存储的所述计算机执行指令以实现如第一方面所述的方法。
[0017]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
[0018]本专利技术实施例提供的文本数据的分类方法、设备及存储介质,通过获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。本专利技术实施例通过分类模型实现对评价文本数据的分类,并且在分类过程中通过提取评价文本数据的融合特征向量,考虑更多的评价文本数据的特征信息,从而提高了对评价文本数据分类的准确率和召回率,并且相对于通过关键词命中的方式进行评价文本数据质量问题分类,不需要维护关键词库,降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0020]图1为本专利技术实施例提供的文本数据的分类方法的应用场景图;
[0021]图2为本专利技术一实施例提供的文本数据的分类方法的流程图;
[0022]图3为本专利技术另一实施例提供的文本数据的分类方法的流程图;
[0023]图4为本专利技术一实施例提供的分类模型的架构图;
[0024]图5为本专利技术一实施例提供的文本数据的分类设备的结构图;
[0025]图6为本专利技术一实施例提供的执行文本数据的分类方法的计算机设备的结构图。
[0026]通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
[0027]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0028]现有技术中,对于评价文本数据,主要判断评价文本数据命中某些关键词,从而找到关键词对应的问题类型,以对评价文本数据进行商品质量问题归类。通过关键词命中的
方式进行评价文本数据质量问题分类,存在一些问题:
[0029]首先,关键词库维护成本高,召回率低,电商平台每天都会有大批量的数据流入,商品质量问题的场景也是不断变化,需要耗费大量人力资源从历史文本里提取描述商品质量问题的关键词,并且由于关键词无法穷举,只能覆盖部分场景,造成召回率偏低;其次,该方法准确率低,对于涉及上下文语境语义的场景,单纯使用关键词匹配,将可能导致将质量问题类型分类错误,如将商品的包装问题分为商品的功能问题,甚至会将没有质量问题的商品错判为有质量问题的商品,如由消费者自身原因而非商品质量问题造成的退换修。此外,从开发角度来看,需要写繁琐的逻辑规则实现该方法,最后可能规则爆炸,同样不利于方法迭代。
[0030]近些年来人工智能技术有了突破性的进展,已经开始渗透在各个领域,如智能客服、刷脸支付等等,其核心主要通过神经网络模型实现。通过神经网络模型来实现文本分类、情感分析、图像识别等是当下研究的热点问题。因此针对上述技术问题,本实施例中考虑通过文本分类模型实现对评价文本数据的分类,只需要预先训练好分类模型即可,不需要维护关键词库,可降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
[0031]其中,考虑到FastText模型作为一种常用的文本分类模型,可以在保持高精度的情况下加快训练速度和测试速度,其通常过程主要包括三步:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的分类方法,其特征在于,包括:获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。2.根据权利要求1所述的方法,其特征在于,所述对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,包括:通过所述分类模型的第一滤波单元和第二滤波单元,分别对所述词向量矩阵进行信息提取,以分别获取所述第一特征向量和所述第二特征向量;其中所述第一特征向量为对所述词向量矩阵各维度求平均值得到的向量,所述第二特征向量为对所述词向量矩阵各维度取最大值得到的向量。3.根据权利要求1所述的方法,其特征在于,所述融合所述第一特征向量和所述第二特征向量得到融合特征向量,包括:对所述第一特征向量和所述第二特征向量进行拼接,将拼接所得的向量作为所述融合特征向量;或者将所述第一特征向量和所述第二特征向量对应维度进行加权平均处理,将加权平均结果作为所述融合特征向量。4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述融合特征向量确定所述评价文本数据的分类结果,包括:所述通过所述分类模型的第一全连接层,根据所述融合特征向量对所述评价文本数据进行二分类,判断所述评价文本数据的类别是否为存在质量问题的类别;若为存在质量问题的类别,则通过所述分类模型的第二全连接层,根据所述融合特征向量对所述评价文本数据进行多分类,确定所述评价文本数据所属的质量问题类别。5.根据权利要求1-3任一项所述的方法,其特征在于,所述获取所述评价文本数据对应的文本词序列的词向量矩阵,包括:通过所述分类模型的分词工具,对所述评价文本数据进行分词,得到文本词序列;通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵。6.根据权利要求5所述的方法,其特征在于,所述通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵,包括:根...

【专利技术属性】
技术研发人员:李银锋黄明星周彬田俊文李晓敏晏梦佳
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1