生成特征向量和基于特征向量进行文本分类的方法和装置制造方法及图纸

技术编号：21850912 阅读：44 留言：0更新日期：2019-08-14 00:24

本发明专利技术公开了一种生成特征向量和基于特征向量进行文本分类的方法和装置，涉及计算机技术领域。该生成特征向量的方法的一具体实施方式包括：获取文本数据的特征权重矩阵和词向量矩阵，特征权重矩阵由文本数据与业务场景类别的关联权重构成；通过对特征权重矩阵与词向量矩阵进行运算以生成特征向量矩阵，特征向量矩阵由特征向量组成。该实施方式能够结合文本数据的全部特征，实现基于业务场景的文本分类，提高了基于不同业务场景的文本分类精度，便于针对不同业务场景提升用户体验。

Method and device for generating feature vectors and text categorization based on feature vectors

全部详细技术资料下载

【技术实现步骤摘要】
生成特征向量和基于特征向量进行文本分类的方法和装置
本专利技术涉及计算机
，尤其涉及一种生成特征向量和基于特征向量进行文本分类的方法和装置。
技术介绍
随着大数据时代的来临，大数据分析也应运而生。网络平台通过对自身数据仓库中规模巨大的数据进行分析，可以获取有用的资源，以用于更好地指导网站建设、企业运营等等。以目前发展迅速的电子商务为例，随着互联网的迅速普及，线上购物占据了广大消费用户生活中很高的购物比例。如何通过对用户的消费记录、评论信息等数据进行分析来更好地提高用户的消费体验，扩大电商的市场，成为目前大量电商角逐的主战场。以对用户的评论信息进行分析为例，通过基于用户的评论信息以及相关的新闻等内容，可以根据不同的业务场景(例如：账号安全、虚假交易、恶意订单、营销风控等)对用户的评论信息进行分类，进而可以确定畅销商品和滞销商品，排除商家的不正当竞争行为或对用户的欺骗行为以对商家进行严格管控等。其中，对用户的评论信息进行分类本质上即是对文本进行分类。目前，常用的基于业务场景的文本分类方法，大多是基于现有的机器学习技术或者各种统计学习方法，通过对已有的标注数据进行训练，然后对线上的评论数据进行预测。现有的机器学习技术或者统计学习的方法，实现过程一般是：首先，对文本进行分词；再计算每个词与不同业务场景的相关度；然后，根据相关度选择主要特征，一般选择满足预定相关度阈值的特征或者将相关度由高到低排序后靠前的预定个数的特征作为主要特征；最后，通过对主要特征进行训练得到文本分类模型，以对线上的文本数据进行分类预测。在实现本专利技术过程中，专利技术人发现现有技术中至少...

【技术保护点】
1.一种生成特征向量的方法，其特征在于，包括：获取文本数据的特征权重矩阵和词向量矩阵，所述特征权重矩阵由所述文本数据与业务场景类别的关联权重构成；通过对所述特征权重矩阵与所述词向量矩阵进行运算以生成特征向量矩阵，所述特征向量矩阵由特征向量组成。

【技术特征摘要】
1.一种生成特征向量的方法，其特征在于，包括：获取文本数据的特征权重矩阵和词向量矩阵，所述特征权重矩阵由所述文本数据与业务场景类别的关联权重构成；通过对所述特征权重矩阵与所述词向量矩阵进行运算以生成特征向量矩阵，所述特征向量矩阵由特征向量组成。2.根据权利要求1所述的方法，其特征在于，获取文本数据的特征权重矩阵的步骤包括：对文本数据进行分词操作；对所述分词操作得到的每个词，通过计算所述每个词与业务场景类别的关联权重以得到所述文本数据的特征权重矩阵。3.根据权利要求2所述的方法，其特征在于，利用特征选择的方法计算所述每个词与所述业务场景类别的关联权重，所述特征选择的方法包括以下中的一种：卡方检验、信息增益、相关系数、基尼系数、数据建模、L1范数正则化、决策树。4.根据权利要求1所述的方法，其特征在于，获取文本数据的词向量矩阵的步骤包括：对文本数据进行分词操作；对所述分词操作得到的每个词，通过计算所述每个词的词向量以得到所述文本数据的词向量矩阵。5.根据权利要求1所述的方法，其特征在于，所述运算为卷积运算。6.一种基于特征向量进行文本分类的方法，其特征在于，包括：获取文本数据的特征权重矩阵和词向量矩阵，所述特征权重矩阵由所述文本数据与业务场景类别的关联权重构成；通过对所述特征权重矩阵与所述词向量矩阵进行运算以生成特征向量矩阵，所述特征向量矩阵由特征向量组成；对所述特征向量进行训练以得到文本数据分类模型；使用所述文本数据分类模型进行文本数据分类。7.根据权利要求6所述的方法，其特征在于，对所述特征向量进行训练以得到文本数据分类模型的步骤包括：将所述特征向量输入待训练模型中以得到输出值；将所述输出值与实际值进行比较并计算误差和；根据所述误差和调整所述待训练模型的参数；重复执行以上3个步骤，直至所述误差和小于预设的误差阈值，并将所述误差和小于预设的误差阈值的待训练模型作为文本数据分类模型。8.一种生成特征向量的装置，其特征在于，包括：数据获取模块，用于获取文本数据的特征权重矩阵和词向量矩阵，所述特征权重矩阵由所述文本数据与业务场景类别的关联权重构成；特征运算模块，用于通过对所述特征权重矩阵与所述词...

【专利技术属性】
技术研发人员：郭培伦，许斌，赵炳岳，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人