当前位置: 首页 > 专利查询>浙江大学专利>正文

一种用户评论观点提取和观点标签生成的方法技术

技术编号:18591978 阅读:28 留言:0更新日期:2018-08-04 20:01
本发明专利技术公开了一种用户评论观点提取和观点标签生成的方法。该方法首先基于用户评论构建初始的观点词性规则库,然后通过不断迭代的方法自动发现新的用户观点词性规则,通过词性规则匹配的方法得到用户评论观点。对抽取到的观点,基于类目树结构自顶向下地生成商品的属性词词库,并按照观点极性汇聚生成每款商品的用户评论观点标签。本发明专利技术通过自动发现评论观点词性规则的方法,提升了抽取用户观点的召回率;词的层次化聚类和极性分析提升了观点聚类的准确率,使得得到的用户评论观点标签更全面和准确。

A method of user reviews opinion extraction and opinion tag generation

The invention discloses a method for user reviews view extraction and opinion tag generation. This method first constructs an initial point of speech rule base based on user reviews, and then automatically finds new user opinion rules by iterative method, and obtains the views of users' comments through the method of word - based rules matching. For the extracted view, the attribute word bank of the commodity is generated from top to bottom based on the structure of the class tree, and the user comment view label of each item is generated according to the polarity of views. The invention improves the recall rate of the user's viewpoint by automatically discovering the comment point of speech rules. The hierarchical clustering and polarity analysis of the word improves the accuracy of the viewpoint clustering, making the user comment point of view more comprehensive and accurate.

【技术实现步骤摘要】
一种用户评论观点提取和观点标签生成的方法
本专利技术涉及一种用户评论观点提取和观点标签生成的方法。具体来说,涉及一种当给定某商品的用户评论后,从评论中抽取出用户评论观点,然后对用户评论观点进行聚合生成用户评论观点标签的方法。
技术介绍
用户评论是用户对商品的评价,是用户和商品提供商之间的交流方式,体现了用户对商品的喜好和需求。这里的商品是广义商品概念,除了有形的产品外,还可以是无形的软件和服务。商品的评论标签不仅可以节省用户看评论的时间,也可以更快地让商品提供商得到用户的反馈,因此自动抽取商品的用户评论中用户的观点以及自动生成商品的评论标签有重要的实用价值。目前普遍使用的用户评论的观点提取和聚类的方法主要是基于规则的提取和K-means、LDA等传统方法。在基于规则的观点提取方法中,用户的评论中观点陈述句具有固定的句式结构,通过句法分析工具以及规则可以简单有效地抽取到用户评论中的观点。但是这种抽取观点的方法只对部分观点有效,因为依赖人工总结出来的规则不能涵盖所有用户评论中的表述方式。同时,这种方法仅对陈述句有效,中文会有很多种表达方式,因而这种方法无法直接适用。对于文本常用的聚类方法主要是以LDA为代表的主题模型和以K-means为代表的传统聚类方法。这些传统方法的好处在于模型简单,当样本较多时能够在较短的时间内收敛。但这些方法都是初值敏感的,即聚类的尺度无法控制,同一个类别下的共性可能不是语义上的相似性。同时,对于不同类别不同极性的商品评论观点用同一个标签并不适用。因此,无论是观点抽取,还是对观点进行聚合都有可以提升的空间,在观点抽取部分可提升召回率,在观点聚合部分可提升准确率,从而生成更加合理准确的商品评论标签。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种用户评论观点提取和观点标签生成的方法。本专利技术的目的是通过以下技术方案来实现的:一种用户评论观点提取和观点标签生成的方法,该方法包括以下步骤:(1)用户评论观点提取,即提取出某一个具体商品的某一条具体评论中的用户观点。具体包括以下子步骤:(1.1)构建初始的用户评论观点的种子词性规则库{rules}。(1.2)基于评论观点的种子词性规则库{rules}对用户评论进行处理,迭代地进行评论观点的词性规则的自动发现,得到全量的用户评论观点的词性规则库{rulestotal}。(1.3)基于所有的观点的词性规则集{rulestotal},在词性标注后的用户评论中进行词性严格匹配,得到所有的用户评论观点{opinionstotal}。(2)对提取到的用户评论观点进行聚合生成用户评论观点标签,即指综合多个用户对该商品的评价,生成若干个概括性的观点标签。具体包括以下子步骤:(2.1)对所有的用户评论观点{opinionstotal}中的属性词进行词的层次化聚类,基于商品的类目树结构的自顶向下地生成商品的属性词词库。(2.2)判断用户评论的观点极性。(2.3)对每一款商品的评论观点的情感词进行词的层次化聚类生成评论观点标签。进一步地,所述步骤1.2具体包括以下子步骤:(1.2.1)利用初始的观点的词性规则集{rules}对词性标注后的全量用户评论进行词性严格匹配,得到用户评论的观点库{opinions}。所述词性严格匹配是指评论语句的带词性标注后的句式结构和观点的词性规则集中的规则完全相同时才提取出相应的观点。(1.2.2)利用用户评论观点库{opinions}在词性标注后的全量用户评论中进行词的宽松匹配,提取词性规则后得到新的用户评论观点的词性规则库{rulesnew}。所述词的宽松匹配是指在限制长度内,只需按顺序依次出现了观点库{opinions}中某个观点中的各个词,则认为匹配成功。(1.2.3)重复步骤1.2.1和步骤1.2.2,直至无法发现新的观点的词性规则,得到所有的观点的词性规则集{rulestotal}。进一步地,所述步骤2.1和2.3中词的层次化聚类方法,具体包括以下步骤:(a)对于每个词,先采用word2vec方法对全量用户评论训练得到的一个词向量。(b)给定n个待聚类的词{w1,w2,w3,…,wn}构成n棵二叉树的集合F={t1,t2,t3,…,tn},即二叉树森林,其中每棵二叉树只有1个根节点,即待聚类的词wi本身,节点的词向量即为该词的词向量。(c)两两计算所有二叉树的根节点的词向量之间的余弦相似度,找出相似度最高且大于所设定的阈值t0的二棵二叉树,以它们为左右子树构造一棵新的二叉树,并置新的二叉树的根节点的词向量为两棵原二叉树中所有叶节点的词向量的质心,即将它们的词向量的各维取平均。将新的二叉树加入到F,并去除两棵原二叉树。(d)重复c,直到找不出二棵根节点的词向量之间的余弦相似度大于t0的二叉树为止。(e)对于这n个待聚类的词{w1,w2,w3,…,wn},如被划分在同一棵二叉树中,则被聚为同一类。进一步地,所述步骤2.1中基于商品的类目树结构的自顶向下地生成商品的属性词词库,具体包括以下子步骤:(2.1.1)处理商品类目树的根节点,即对所有商品的所有用户评论观点{opinionstotal}的属性词进行词的层次化聚类。由于出现次数较少的属性词不具有代表性,因此在聚类之前要删除词频较少的属性词。将同一类目下词频最高的属性词作为该类目的属性词标签。(2.1.2)处理第二层中的各个节点属性词词库。将属于该类目节点下所有的商品的所有用户评论观点的属性词,在剔除掉其祖先节点的属性词词库中的属性词之后,对剩余的属性词进行词的层次化聚类。聚类前同样要按前述方法删除词频较少的属性词。聚类后按前述同样方法,即选择同一类目下词频最高的属性词作为该类目的属性词标签。(2.1.3)按照步骤2.1.2中的方法,按层次自顶向下依次对类目树中所有非叶子节点进行词的层次化聚类。进一步地,所述步骤2.3具体包括以下步骤:(2.3.1)对于该商品的每一个用户观点,其属性词应包含于其某个祖先节点的属性词词库中,将其替换为对应属性词类别的属性词标签。(2.3.2)对每一个相同属性词标签下的同极性的所有情感词进行词的层次化聚类,选取词频最高的情感词作为情感词标签。(2.3.3)综合该商品的所有评论观点的属性词标签,及其各个属性词标签下的同极性的情感词标签,汇聚得到该商品的评论观点标签。本专利技术的有益效果是:(1)通过自动发现评论观点词性规则的方法,提升了抽取用户观点的召回率;(2)通过基于类目树结构的自顶向下地生成商品的属性词词库,按照观点极性汇聚生成每款商品的用户评论观点标签,使得到的评论标签更准确;(3)本专利技术的建模过程是无监督的,具有很好的适用性。附图说明图1为本专利技术方法中用户评论观点提取和观点标签生成的方法流程图;图2为本专利技术方法中自动发现用户评论观点词性规则的流程图;图3本专利技术方法中自动发现观点词性规则的一个示例图;图4为本专利技术中观点标签生成的方法流程图;图5为本专利技术中中层次化聚类方法的示意图;图6为本专利技术中华为应用市场上App功能分类的示意图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细描述,本专利技术的目的和效果将变得更加明显。图1给出了本专利技术的方法流程图,本专利技术对用户评论进行观点提取和观点标签生成分为二个步骤,即首先对用户评论进本文档来自技高网
...

【技术保护点】
1.一种用户评论观点提取和观点标签生成的方法,其特征在于,该方法包括以下步骤:(1)用户评论观点提取,即提取出某一个具体商品的某一条具体评论中的用户观点。具体包括以下子步骤:(1.1)构建初始的用户评论观点的种子词性规则库{rules}。(1.2)基于评论观点的种子词性规则库{rules}对用户评论进行处理,迭代地进行评论观点的词性规则的自动发现,得到全量的用户评论观点的词性规则库{rulestotal}。(1.3)基于所有的观点的词性规则集{rulestotal},在词性标注后的用户评论中进行词性严格匹配,得到所有的用户评论观点{opinionstotal}。(2)对提取到的用户评论观点进行聚合生成用户评论观点标签,即指综合多个用户对该商品的评价,生成若干个概括性的观点标签。具体包括以下子步骤:(2.1)对所有的用户评论观点{opinionstotal}中的属性词进行词的层次化聚类,基于商品的类目树结构的自顶向下地生成商品的属性词词库。(2.2)判断用户评论的观点极性。(2.3)对每一款商品的评论观点的情感词进行词的层次化聚类生成评论观点标签。

【技术特征摘要】
1.一种用户评论观点提取和观点标签生成的方法,其特征在于,该方法包括以下步骤:(1)用户评论观点提取,即提取出某一个具体商品的某一条具体评论中的用户观点。具体包括以下子步骤:(1.1)构建初始的用户评论观点的种子词性规则库{rules}。(1.2)基于评论观点的种子词性规则库{rules}对用户评论进行处理,迭代地进行评论观点的词性规则的自动发现,得到全量的用户评论观点的词性规则库{rulestotal}。(1.3)基于所有的观点的词性规则集{rulestotal},在词性标注后的用户评论中进行词性严格匹配,得到所有的用户评论观点{opinionstotal}。(2)对提取到的用户评论观点进行聚合生成用户评论观点标签,即指综合多个用户对该商品的评价,生成若干个概括性的观点标签。具体包括以下子步骤:(2.1)对所有的用户评论观点{opinionstotal}中的属性词进行词的层次化聚类,基于商品的类目树结构的自顶向下地生成商品的属性词词库。(2.2)判断用户评论的观点极性。(2.3)对每一款商品的评论观点的情感词进行词的层次化聚类生成评论观点标签。2.根据权利要求1所述的用户评论观点提取和观点标签生成的方法,其特征在于,所述步骤1.2具体包括以下子步骤:(1.2.1)利用初始的观点的词性规则集{rules}对词性标注后的全量用户评论进行词性严格匹配,得到用户评论的观点库{opinions}。所述词性严格匹配是指评论语句的带词性标注后的句式结构和观点的词性规则集中的规则完全相同时才提取出相应的观点。(1.2.2)利用用户评论观点库{opinions}在词性标注后的全量用户评论中进行词的宽松匹配,提取词性规则后得到新的用户评论观点的词性规则库{rulesnew}。所述词的宽松匹配是指在限制长度内,只需按顺序依次出现了观点库{opinions}中某个观点中的各个词,则认为匹配成功。(1.2.3)重复步骤1.2.1和步骤1.2.2,直至无法发现新的观点的词性规则,得到所有的观点的词性规则集{rulestotal}。3.根据权利要求1所述的用户评论观点提取和观点标签生成的方法,其特征在于,所述步骤2.1和2.3中词的层次化聚类方法,具体包括以下步骤:(a)对于每个词,先采用word2vec方法对全量用户评论训练得到的一个词向量。(b)给定...

【专利技术属性】
技术研发人员:纪志伟杜歆
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1