【技术实现步骤摘要】
一种基于评论文本的产品属性分析方法及设备
[0001]本申请涉及自然语言处理
,尤其涉及一种基于评论文本的产品属性分析方法及设备
。
技术介绍
[0002]随着互联网技术的发展,相继出现了众多电影
、
小说
、
电商等服务类平台,人们逐渐养成了在互联网相关平台分享体验的消费反馈模式,这些反馈以文本评论为主,提供了大量可借鉴分析的数据,一方面可以为受众群体提供重要的参考依据,另一方面可以帮助平台获取产品的优缺点,进而改善自己的产品
。
[0003]但是,随着网上评论的持续增多,人们往往需要耗费大量的时间阅读评论,提取出与自己需求匹配的关键信息
。
而且,目前各服务平台获取用户对产品的好感度大多采用用户对整个产品的评分制,或者会提取评论中高度重合并具有代表性的分词及其频率,显示在评论区上方,帮助用户快速获取评论中的关键信息
。
但是这种方式存在提取属性无用
、
属性分类不够系统化,从而造成直观但是笼统,最终导致产品属性分析的准确性低
。
技术实现思路
[0004]本申请实施例提供一种基于评论文本的产品属性分析方法及设备,用于解决产品属性分析的准确性低的问题
。
[0005]本申请实施例采用下述技术方案:
[0006]一方面,本申请实施例提供了一种基于评论文本的产品属性分析方法,该方法包括:获取待分析产品的评论文本信息;对所述评论文本信息进行关键词提取,确定所述待分析 ...
【技术保护点】
【技术特征摘要】
1.
一种基于评论文本的产品属性分析方法,其特征在于,所述方法包括:获取待分析产品的评论文本信息;对所述评论文本信息进行关键词提取,确定所述待分析产品的多个评论属性;根据所述多个评论属性,生成所述待分析产品的评论属性集合;从所述评论文本信息中,检索与所述评论属性集合中每个评论属性相关的多条评论文本信息,生成每个评论属性的评论文本组;在每个评论文本组中,对每条评论文本信息进行分词,得到所述每条评论文本信息的情感词,根据情感词典对所述情感词进行匹配,得到所述每条评论文本信息的情感分数;所述情感分数越高,用户对所述待分析产品的喜爱度越高;对所述每个评论文本组的多个情感分数进行求平均,得到所述每个评论属性的评分值
。2.
根据权利要求1所述的方法,其特征在于,所述对所述评论文本信息进行关键词提取,确定所述待分析产品的多个评论属性,具体包括:对所述评论文本信息进行预处理,得到有效评论文本信息;所述预处理包括数据清洗
、
数据去重
、
数据排空;通过
jieba
分词算法对所述有效评论文本信息进行分词,得到多个分词;通过停用词表对所述多个分词进行去除语气词,得到多个有效分词;通过
TF
‑
IDF
算法对每个有效分词进行权重计算,将权重值超过预设阈值的有效分词作为所述评论文本信息的关键词,将所述关键词确定为所述待分析产品的评论属性
。3.
根据权利要求2所述的方法,其特征在于,所述通过
jieba
分词算法对所述有效评论文本信息进行分词,得到多个分词,具体包括:获取标准自定义词典;所述标准自定义词典包括多个产品的描述词语;基于用户的操作,在所述标准自定义词典中添加与所述待分析产品的产品特性相关的产品常用词,得到更新的标准自定义词典;基于所述更新的标准自定义词典,通过
jieba
分词算法对所述有效评论文本信息进行分词,得到多个分词
。4.
根据权利要求1所述的方法,其特征在于,所述根据所述多个评论属性,生成所述待分析产品的评论属性集合,具体包括:根据所述多个评论属性,生成所述待分析产品的初始评论属性集合;判断评论属性的数量是否超过预设数量阈值;若否,则在自定义属性集合库中,查找与所述待分析产品关联的自定义属性集合;根据所述初始评论属性集合与所述自定义属性集合,生成所述待分析产品的评论属性集合;若是,则将所述待分析产品的初始评论属性集合确定为所述待分析产品的评论属性集合
。5.
根据权利要求4所述的方法,其特征在于,所述根据所述初始评论属性集合与所述自定义属性集合,生成所述待分析产品的评论属性集合,具体包括:将所述初始评论属性集合与所述自定义属性集合进行合并,得到合并属性集合;对所述合并属性集合中的评论属性进行查重,将重复的评论属性进行去重,得到有效
评论属性;根据所述有效评论属性,生成所述待分析产品的评论属性集合
。6.
根据权利要求1所述的方法,其特征在于,所述对所述每个评论文本组的多个情感分数进行求平均,得到所述每个评论属性的...
【专利技术属性】
技术研发人员:秦聪聪,赵海兴,孙永超,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。