一种基于大数据文本挖掘的商品质量情感词典构建系统技术方案

技术编号:13348443 阅读:47 留言:0更新日期:2016-07-15 02:02
本发明专利技术涉及一种电商质量情感词典的构建系统,特别涉及一种基于大数据文本挖掘技术的情感词典构建系统。消费者的消费决策很多程度上取决于其他消费者的评价情感词,而基于自然语言的消费评论很多是基于一个现有的情感词库来实现的。本发明专利技术解决了商品质量情感词典的自动构建以及商品的基本属性评价和个人使用评价的分离问题。本发明专利技术的目的在于提供一种基于电商平台评价语料库的电商商品质量情感极性词典和程度词典的自动抽取、更新方法,将消费者对商品评价中的商品属性描述和个人使用状况描述相分离,为更多的消费者提供简洁、客观的产品质量评估结果,完善基于商品评论的在线消费决策机制。

【技术实现步骤摘要】

本专利技术涉及一种电商质量情感词典的构建系统,特别涉及一种基于大数据文本挖掘技术的情感词典构建系统。
技术介绍
电子商务代表着未来贸易模式的发展方向,它的应用和推广给中国的经济发展及社会进步带来了巨大的效益。从二十世纪九十年代开始电子商务的发展离不开互联网的发展,截止2001年1月,我国电子商务网站数量已经到达1500余家。2015年中国移动市场规模超过3500亿元,用户规模超过5.2亿人。中国的电子商务逐渐形成多种趋势,包括:移动购物、平台化、电子商务向三四五线城市渗透、物联网、社交购物、O2O、云服务和电子商务解决方案、大数据的应用、精准化营销和个性化服务、互联网金融。由于网络所具有的先对高度互动性、匿名性、便利性、时效性和开放性等特征,越来越多的消费者在电商购买消费品之后会通过在线评价系统发表自己对商品、物流的评价,自己使用情况以及各方面的情感。据2005年美国KRC研究所在线调研结果显示,网络购物者在线搜索、评价产品时,其他消费者对产品的评价和使用时的心得,很大的影响了他们的购买决策。据CNNIC在2009年发布的报告显示,在线商品评论是我国消费者购买决策的重要信息来源之一。市场调研公司尼尔森在2012年的报告显示,70%的消费者表示他们信任在线产品评价。消费决策制定包括以下几个阶段:问题识别、信息搜索、决策制定、购后评估。郝媛媛在《在线评论对消费者感知与购买行为影响的实证研究》中将定性分析和定量分析相结合对消费者感知与购买行为影响进行研究,文本情感趋于正面的评价可能会缺乏有用性的投票,从而影响消费者购买决策。王孟萍在《在线评论对消费者购买意愿的影响研究》中指出含有情感线索的在线评论对信息受众的购买意愿更大,情感线索会让网民产生更加强烈的移情反应,并且信息受众的移情反应有显著地影响信息受众的消费意愿,从而导致不同的消费决策。很多社交媒体和文本分析研究者通过算法的方式处理情感分类问题。严馨等人在“一种基于微博的新词情感倾向判定方法”[CN201510485811.X]中通过中文分词工具对微博语料进行分词,通过去停用词后采用B-Gram算法统计词频获得新词集,然后再用知网的情感词典计算出新词集中各词的情感分布,通过构建线性分类器得到新词的情感倾向。严勤等人在“一种应用于金融Web领域的文本情感倾向分析方法”[CN201510406228.5]中,根据Web金融文本特点构建金融情感词典,设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web文本情感倾向分类。彭德中等人在“一种基于SO-PMI商品评价信息的情感分析方法”[CN201510383251.7]中,在情感词典的基础上,以每条评价语句S为单位,以该语句中的每个情感词WS为分隔符,对两个分隔符之间的断句phrase进行情感权值计算,然后将每个断句的权值求和得出S的总体情感倾向值,实现对评价语句的情感分类。徐华等人在“基于用户评论文本的上下文情感分类方法及分类系统”[CN201510203118.9]采用以下步骤实现评论情感分类:获取多条用户评论文本;对多条用户评论进行分词;对分词后的多条用户评论文本进行训练,以得到候选特征集;从候选特征集中根据上下文结构特征提取有效特征,以得到训练集;根据训练集分类模型,通过分类对用户评论文本进行情感分类。综上所述,消费者的消费决策很多程度上取决于其他消费者的评价情感词,而基于自然语言的消费评论很多是基于一个现有的情感词库来实现的。原来越来越多的网络专业用语以新的风格出现在不断增长变化的电商消费平台上,简单的人工构建的网络情感词典已经无法满足网络信息挖掘的需求。于此同时,电商评价中部分是用户个人对商品使用情况的评定,具有很大的个体客观性,对商品的设计和研发具有一定的指导意义,但是在其他消费者的购买指导方面并没有太多的参考价值。而本专利技术就是解决了商品质量情感词典的自动构建以及商品的基本属性评价和个人使用评价的分离问题。
技术实现思路
本专利技术的目的在于提供一种基于电商平台评价语料库的电商商品质量情感极性词典和程度词典的自动抽取、更新方法,将消费者对商品评价中的商品属性描述和个人使用状况描述相分离,为更多的消费者提供简洁、客观的产品质量评估结果,完善基于商品评论的在线消费决策机制。本专利技术系统解决其技术问题所采取的技术方案是:一种基于大数据的词典构建方法,该方法包括一个原始语料数据库、一个三元组抽取模块、一个第三方词典库、一个简单的人工标定模块、一个机器学习模块、以及最终的极性词典和程度词典。原始语料数据库:通过爬虫软件获得原始电商评价语料库。三元组抽取模块:从商品文本评价信息中抽取FLO(Feature,level,option)三元组,FLO模型请参照前期专利“一种面向海量互联网信息的文本语义建模方法”[CN201610075760.8]实现并获得三元组集合,三元组集合主要包含{特征词、程度词、特征量化词本文档来自技高网
...

【技术保护点】
本专利技术系统解决其技术问题所采取的技术方案是:一种基于大数据的词典构建方法,该方法包括一个原始语料数据库、一个三元组抽取模块、一个第三方词典库、一个简单的人工标定模块、一个机器学习模块、以及最终的极性词典和程度词典。

【技术特征摘要】
1.本发明系统解决其技术问题所采取的技术方案是:一种基于大数据的词典构建方法,该方法包括一个原始语料数据库、一个三元组抽取模块、一个第三方词典库、一个简单的人工标定模块、一个机器学习模块、以及最终的极性词典和程度词典。
2.原始语料数据库:通过爬虫软件获得原始电商评价语料库。...

【专利技术属性】
技术研发人员:李华康钟鑫杨天若杨天楚
申请(专利权)人:常州普适信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1