一种分析文本属性的方法和装置制造方法及图纸

技术编号：23191339 阅读：27 留言：0更新日期：2020-01-24 16:25

本发明专利技术公开了一种分析文本属性的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取样本集；其中，样本集包括评价文本以及属性类别；分析评价文本中词语的词性，统计相同词性对应的词语在所述评价文本中的出现次数，根据评价文本的词频向量以及属性类别，训练神经网络；分析待测评价文本中词语的词性，统计相同词性对应的词语在待测评价文本中的出现次数，得到待测文本的词频向量，导入训练后的神经网络中，以确定待测评价文本的属性类别。该实施方式可以基于词性、词频以及属性类别之间的对应关系，快速获取可适用于全类型的模型，且操作简单、成本低、具有更高的抽象性。

A method and device for analyzing text attributes

全部详细技术资料下载

【技术实现步骤摘要】
一种分析文本属性的方法和装置
本专利技术涉及计算机
，尤其涉及一种分析文本属性的方法和装置。
技术介绍
目前在电商网络购物平台，用户在购物完成后可以对所购买的商品发表评价，以表达商品使用心得以及商品优缺点等。用户的全面客观多角度的评价，会对浏览该商品评价的用户下单率产生不同的影响，例如，和没有优质评价的商品相比，有很多优质评价的商品下单率会更高。因此在实际业务中，需要针对用户发表的商品评价进行一个分类识别，确定每一条评价是属于优质评价还是劣质评价。商家可以根据这些评价质量的优劣程度，给予不同的奖励，以此来奖励用户发表优质评价。现有关于评价的优劣划分主要是有以下几种方法：1)对所有评论进行分词处理，并去除停用词和连词，以统计出一个词库。对词库中每个词使用one-hot-Representation方法表示，并将一条评论中的词的one-hot-Representation进行叠加，得到一个向量。向量的每一唯作为机器学习模型的一个输入特征，进行训练。2)使用心理语言学识别LIWC(LinguisticInquiryandWordCount)，LSTM(LongShort-TermMemory)长短时记忆网络，或CNN(ConvolutionalNeuralNetworks)卷积神经网络等方式的组合使用。在实现本专利技术的过程中，专利技术人发现现有技术至少存在如下问题：1)现有方式一，不同品类所对应的词库会有所区别，因此需要针对每个品类进行单独训练，例如，服饰品类的模型不...

【技术保护点】
1.一种分析文本属性的方法，其特征在于，包括：/n获取样本集；其中，所述样本集包括评价文本以及属性类别；/n分析所述评价文本中词语的词性，统计相同词性对应的词语在所述评价文本中的出现次数，根据所述评价文本的词频向量以及属性类别，训练神经网络；/n分析待测评价文本中词语的词性，统计相同词性对应的词语在所述待测评价文本中的出现次数，得到所述待测文本的词频向量，导入训练后的神经网络中，以确定所述待测评价文本的属性类别。/n

【技术特征摘要】
1.一种分析文本属性的方法，其特征在于，包括：
获取样本集；其中，所述样本集包括评价文本以及属性类别；
分析所述评价文本中词语的词性，统计相同词性对应的词语在所述评价文本中的出现次数，根据所述评价文本的词频向量以及属性类别，训练神经网络；
分析待测评价文本中词语的词性，统计相同词性对应的词语在所述待测评价文本中的出现次数，得到所述待测文本的词频向量，导入训练后的神经网络中，以确定所述待测评价文本的属性类别。

2.根据权利要求1所述的方法，其特征在于，所述分析所述评价文本中词语的词性，统计相同词性对应的词语在所述评价文本中的出现次数，根据所述评价文本的词频向量以及属性类别，训练神经网络，包括：
将所述样本集分为训练集和测试集；
基于所述训练集中评论文本的词频向量以及属性类别，训练神经网络，得到待测网络模型；
输入所述测试集中评论文本的词频向量至所述待测网络模型中，确定测试所得属性类别、与所述测试集中评论文本属性类别的错误率；
当所述错误率小于或等于预定错误率阈值时，确定所述待测网络模型为所述样本集的网络模型。

3.根据权利要求1所述的方法，其特征在于，在所述获取样本集之前，还包括：
统计预定分词库中词语的词性，组合生成词性集合；
所述分析所述评价文本中词语的词性，统计相同词性对应的词语在所述评价文本中的出现次数，包括：
分析所述评价文本中词语的词性，基于在所述词性集合中查询存在的词性，统计对应的词语在所述评价文本中的出现次数；
所述分析待测评价文本中词语的词性，统计相同词性对应的词语在所述待测评价文本中的出现次数，包括：
分析待测评价文本中词语的词性，基于在所述词性集合中查询存在的词性，统计对应的词语在所述待测评价文本中的出现次数。

4.根据权利要求1所述的方法，其特征在于，还包括：
当所述待测评价文本的总字数低于预定字数阈值时，确定所述待测评价文本为劣质评价；和/或
当所述待测评价文本中形容词的数量高于预定词性数量阈值时，确定所述待测评价文本为劣质评价。

5.一种分析文本属性的装置，其特征在于，包括：
样本获取模块，用于获取样本集；其中...

【专利技术属性】
技术研发人员：张之硕，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人