基于CRFs和SVM的产品评论细粒度情感要素提取制造技术

技术编号：9794592 阅读：218 留言：0更新日期：2014-03-21 19:18

本发明专利技术公开了一种基于CRFs和SVM的产品评论细粒度情感要素提取，包括如下步骤：a、采用CRFs模型，将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取；b、根据提取出的情感对象、情感词和引入的句子结构特征，采用SVM模型对词对进行情感倾向性分析。本发明专利技术不仅将评论句中情感对象和情感词一并提取出来，而且提高了情感倾向性分析中的情感分类精度，使得在情感要素抽取与情感判断上得到提高，F值达到76.3%。由于词义代码的引入，词义代码提高了系统的泛化能力和鲁棒性，使得评论结果分析的正确率和召回率均得到了较大提高。

全部详细技术资料下载

【技术实现步骤摘要】
基于CRFs和SVM的产品评论细粒度情感要素提取
本专利技术属于计算机信息挖掘
，涉及产品情感要素提取，具体的涉及基于CRFs和SVM的产品评论细粒度情感要素提取。
技术介绍
随着互联网用户迅速增长以及线上购物的不断普及，电子商务出现了爆炸式发展，虽然传统购物还无法被取缔，但是网上购物逐渐成为了人们的首选方式，因为在网上购物环境中，用户可以通过网上商品评论，随时获得更多、更全面的购物参考信息，对商品质量有更全面的了解，同时，用户在购买商品后，往往会参与到对商品的评价中，使得商品评论数据变得越来越庞大。相对商家宣传，评论数据往往能够更客观的反映出产品的真实面貌，如质量、外观、用户体验等等。准确而快速的获取和分析这些评论数据，除了可以为用户提供购买决策支持，还能给商家制定销售策略和改进商品提供全面准确的依据。在网络交易平台上，评论数据往往较多，尤其是热门商品，在海量的数据面前，对信息的快速获取造成了障碍，而人工处理效率低下的缺点就尤为明显。为了解决这个问题，许多电子商务网站采用了五星制评级方式来量化用户对商品的评价。这种方法在一定程度上简化了评论处理，方便用户获取信息，但是，可能会丢失许多重要的信息。针对普通五星制的缺点，少数网站细化了评价分类，如日本的Kakaku网上商城，针对不同类型的商品，列出大家比较关注的一些主要属性，例如性价比等，让用户对产品的每一个属性分别评论并评分，总体的评分汇总直接提供给用户作为购物参考。这种方式有了明显的改进，但是同时带来了一些弊端，首先是产品属性集合并不是固定不变的，人们关注的属性随时可能发生变化，固定的属性集合随着时...
基于CRFs和SVM的产品评论细粒度情感要素提取

【技术保护点】
基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：包括如下步骤：a、采用条件随机场模型（CRFs）将评论句中的情感对象（SS）和情感词（SW）同步提取出来，具体步骤包括：将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取；b、根据提取出的情感对象、情感词和引入的句子结构特征，采用支持向量机（SVM）模型对情感对象和情感词组成的词对进行情感倾向性分析。

【技术特征摘要】
1.基于CRFs和SVM的产品评论细粒度情感要素提取方法，其特征在于：包括如下步骤：a、采用条件随机场模型CRFs将评论句中的情感对象SS和情感词SW同步提取出来，具体步骤包括：将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取；b、根据提取出的情感对象、情感词和引入的句子结构特征，采用支持向量机SVM模型对情感对象和情感词组成的词对进行情感倾向性分析；所述的a步骤中评论语特征包括：词本身W、词性POS、语法树父节点词本身PW、语法树父节点词性PPOSE、语法树父节点语义角色PDP；所述的位置标注的符号集合为：BA位于情感词之前的情感对象、BB位于情感对象之前的情感词、EA位于情感词之后的情感对象、EB位于情感对象之后的情感词、SA没有情感词的情感对象、SB没有情感对象的情感词、P标点符号、O其他；所述的a步骤中的相应规则的伪代码为：设CurrWord为当前词，WordLabel为当前词标记，SS为当前情感对象，SW为当前情感词，SSSet为情感对象集合，WPSet为<情感对象，情感词>词对集合；初始化如果WordLabel＝SA或者WordLabel＝SB或者WordLabel＝O:不处理elseifWordLabel＝P或者当前词到了句子末尾:如果SS已找到：将SS放入SSSet；如果SSSet不为空并且SW已找到:将SSSet和SW放入WPSet；重新初始化elseifWordLabel＝BA:如果CurrWord和SS为并列关系:将SS放入SSSet，SS设为CurrWord否则:将SS和CurrWord拼接成新的SSelseifWordLabel＝BB:SW设为WordLabel，SS设为未找到；elseifWordLabel＝EA:如果CurrWord和SS为并列关系:将SS放入SSSet，SS设为CurrWord否则:将SS和CurrWord拼接成新的SSelseifWordLabel＝EB:SW设为CurrWord，再按照当前词标记为P的方式处理；所述的b步骤中句子结构特征包括：情感对象词义代码SSC、情感词词义代码SWC、是否存...

【专利技术属性】
技术研发人员：孙晓，唐陈意，叶嘉麒，李承程，任福继，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人