一种分析文本属性的方法和装置制造方法及图纸

技术编号:23191339 阅读:27 留言:0更新日期:2020-01-24 16:25
本发明专利技术公开了一种分析文本属性的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取样本集;其中,样本集包括评价文本以及属性类别;分析评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据评价文本的词频向量以及属性类别,训练神经网络;分析待测评价文本中词语的词性,统计相同词性对应的词语在待测评价文本中的出现次数,得到待测文本的词频向量,导入训练后的神经网络中,以确定待测评价文本的属性类别。该实施方式可以基于词性、词频以及属性类别之间的对应关系,快速获取可适用于全类型的模型,且操作简单、成本低、具有更高的抽象性。

A method and device for analyzing text attributes

【技术实现步骤摘要】
一种分析文本属性的方法和装置
本专利技术涉及计算机
,尤其涉及一种分析文本属性的方法和装置。
技术介绍
目前在电商网络购物平台,用户在购物完成后可以对所购买的商品发表评价,以表达商品使用心得以及商品优缺点等。用户的全面客观多角度的评价,会对浏览该商品评价的用户下单率产生不同的影响,例如,和没有优质评价的商品相比,有很多优质评价的商品下单率会更高。因此在实际业务中,需要针对用户发表的商品评价进行一个分类识别,确定每一条评价是属于优质评价还是劣质评价。商家可以根据这些评价质量的优劣程度,给予不同的奖励,以此来奖励用户发表优质评价。现有关于评价的优劣划分主要是有以下几种方法:1)对所有评论进行分词处理,并去除停用词和连词,以统计出一个词库。对词库中每个词使用one-hot-Representation方法表示,并将一条评论中的词的one-hot-Representation进行叠加,得到一个向量。向量的每一唯作为机器学习模型的一个输入特征,进行训练。2)使用心理语言学识别LIWC(LinguisticInquiryandWordCount),LSTM(LongShort-TermMemory)长短时记忆网络,或CNN(ConvolutionalNeuralNetworks)卷积神经网络等方式的组合使用。在实现本专利技术的过程中,专利技术人发现现有技术至少存在如下问题:1)现有方式一,不同品类所对应的词库会有所区别,因此需要针对每个品类进行单独训练,例如,服饰品类的模型不适用于数码品类,导致所需的打标样本数量较大、训练成本高;另外,该方式依赖于品类以及词库,当词库信息不全面时,存在测试不准确的情况;2)现有方式二,开发成本高,需要具有非常专业的自然语言处理经验,某些情况下还需按品类进行区分。
技术实现思路
有鉴于此,本专利技术实施例提供一种分析文本属性的方法和装置,至少能够解决现有技术没有针对全品类的评价文本质量分析方法。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种分析文本属性的方法,包括:获取样本集;其中,样本集包括评价文本以及属性类别;分析评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据评价文本的词频向量以及属性类别,训练神经网络;分析待测评价文本中词语的词性,统计相同词性对应的词语在待测评价文本中的出现次数,得到待测文本的词频向量,导入训练后的神经网络中,以确定待测评价文本的属性类别。可选的,分析评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据评价文本的词频向量以及属性类别,训练神经网络,包括:将样本集分为训练集和测试集;基于训练集中评论文本的词频向量以及属性类别,训练神经网络,得到待测网络模型;输入测试集中评论文本的词频向量至所述待测网络模型中,确定测试所得属性类别、与测试集中评论文本属性类别的错误率;当错误率小于或等于预定错误率阈值时,确定待测网络模型为样本集的网络模型。可选的,在获取样本集之前,还包括:统计预定分词库中词语的词性,组合生成词性集合;分析评价文本中词语的词性,统计相同词性对应的词语在评价文本中的出现次数,包括:分析评价文本中词语的词性,基于在词性集合中查询存在的词性,统计对应的词语在评价文本中的出现次数;分析待测评价文本中词语的词性,统计相同词性对应的词语在待测评价文本中的出现次数,包括:分析待测评价文本中词语的词性,基于在词性集合中查询存在的词性,统计对应的词语在待测评价文本中的出现次数。可选的,当待测评价文本的总字数低于预定字数阈值时,确定待测评价文本为劣质评价;和/或当待测评价文本中形容词的数量高于预定词性数量阈值时,确定待测评价文本为劣质评价。为实现上述目的,根据本专利技术实施例的另一方面,提供了一种分析文本属性的装置,包括:样本获取模块,用于获取样本集;其中,样本集包括评价文本以及属性类别;网络训练模块,用于分析评价文本中词语的词性,统计相同词性对应的词语在评价文本中的出现次数,根据评价文本的词频向量以及属性类别,训练神经网络;属性测试模块,用于分析待测评价文本中词语的词性,统计相同词性对应的词语在待测评价文本中的出现次数,得到待测文本的词频向量,导入训练后的神经网络中,以确定待测评价文本的属性类别。可选的,网络训练模块,用于:将样本集分为训练集和测试集;基于训练集中评论文本的词频向量以及属性类别,训练神经网络,得到待测网络模型;输入测试集中评论文本的词频向量至所述待测网络模型中,确定测试所得属性类别、与测试集中评论文本属性类别的错误率;当错误率小于或等于预定错误率阈值时,确定待测网络模型为样本集的网络模型。可选的,还包括词性集合模块,用于:统计预定分词库中词语的词性,组合生成词性集合;网络训练模块,用于:分析评价文本中词语的词性,基于在词性集合中查询存在的词性,统计对应的词语在评价文本中的出现次数;属性测试模块,用于:分析待测评价文本中词语的词性,基于在词性集合中查询存在的词性,统计对应的词语在待测评价文本中的出现次数。可选的,属性测试模块,还用于:当待测评价文本的总字数低于预定字数阈值时,确定待测评价文本为劣质评价;和/或当待测评价文本中形容词的数量高于预定词性数量阈值时,确定待测评价文本为劣质评价。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种分析文本属性的电子设备。本专利技术实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的分析文本属性的方法。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的分析文本属性的方法。根据本专利技术所述提供的方案,上述专利技术中的一个实施例具有如下优点或有益效果:可以基于词性、词频以及属性类别之间的对应关系,快速获取可适用于全类型的模型;且不强依赖于打标样本、整体操作过程简单、成本低,应用前景较好。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的一种分析文本属性的方法的主要流程示意图;图2是根据本专利技术实施例的一种可选的分析文本属性的方法的流程示意图;图3是根据本专利技术实施例的另一种可选的分析文本属性的方法的流程示意图;图4是根据本专利技术实施例的一种分析文本属性的装置的主要模块示意图;图5是本专利技术实施例可以应用于其中的示例性系统架构图;图6是适于用来实现本专利技术实施例的移动设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各本文档来自技高网
...

【技术保护点】
1.一种分析文本属性的方法,其特征在于,包括:/n获取样本集;其中,所述样本集包括评价文本以及属性类别;/n分析所述评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据所述评价文本的词频向量以及属性类别,训练神经网络;/n分析待测评价文本中词语的词性,统计相同词性对应的词语在所述待测评价文本中的出现次数,得到所述待测文本的词频向量,导入训练后的神经网络中,以确定所述待测评价文本的属性类别。/n

【技术特征摘要】
1.一种分析文本属性的方法,其特征在于,包括:
获取样本集;其中,所述样本集包括评价文本以及属性类别;
分析所述评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据所述评价文本的词频向量以及属性类别,训练神经网络;
分析待测评价文本中词语的词性,统计相同词性对应的词语在所述待测评价文本中的出现次数,得到所述待测文本的词频向量,导入训练后的神经网络中,以确定所述待测评价文本的属性类别。


2.根据权利要求1所述的方法,其特征在于,所述分析所述评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据所述评价文本的词频向量以及属性类别,训练神经网络,包括:
将所述样本集分为训练集和测试集;
基于所述训练集中评论文本的词频向量以及属性类别,训练神经网络,得到待测网络模型;
输入所述测试集中评论文本的词频向量至所述待测网络模型中,确定测试所得属性类别、与所述测试集中评论文本属性类别的错误率;
当所述错误率小于或等于预定错误率阈值时,确定所述待测网络模型为所述样本集的网络模型。


3.根据权利要求1所述的方法,其特征在于,在所述获取样本集之前,还包括:
统计预定分词库中词语的词性,组合生成词性集合;
所述分析所述评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,包括:
分析所述评价文本中词语的词性,基于在所述词性集合中查询存在的词性,统计对应的词语在所述评价文本中的出现次数;
所述分析待测评价文本中词语的词性,统计相同词性对应的词语在所述待测评价文本中的出现次数,包括:
分析待测评价文本中词语的词性,基于在所述词性集合中查询存在的词性,统计对应的词语在所述待测评价文本中的出现次数。


4.根据权利要求1所述的方法,其特征在于,还包括:
当所述待测评价文本的总字数低于预定字数阈值时,确定所述待测评价文本为劣质评价;和/或
当所述待测评价文本中形容词的数量高于预定词性数量阈值时,确定所述待测评价文本为劣质评价。


5.一种分析文本属性的装置,其特征在于,包括:
样本获取模块,用于获取样本集;其中...

【专利技术属性】
技术研发人员:张之硕
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1