The invention discloses a method for user reviews view extraction and opinion tag generation. This method first constructs an initial point of speech rule base based on user reviews, and then automatically finds new user opinion rules by iterative method, and obtains the views of users' comments through the method of word - based rules matching. For the extracted view, the attribute word bank of the commodity is generated from top to bottom based on the structure of the class tree, and the user comment view label of each item is generated according to the polarity of views. The invention improves the recall rate of the user's viewpoint by automatically discovering the comment point of speech rules. The hierarchical clustering and polarity analysis of the word improves the accuracy of the viewpoint clustering, making the user comment point of view more comprehensive and accurate.
【技术实现步骤摘要】
一种用户评论观点提取和观点标签生成的方法
本专利技术涉及一种用户评论观点提取和观点标签生成的方法。具体来说,涉及一种当给定某商品的用户评论后,从评论中抽取出用户评论观点,然后对用户评论观点进行聚合生成用户评论观点标签的方法。
技术介绍
用户评论是用户对商品的评价,是用户和商品提供商之间的交流方式,体现了用户对商品的喜好和需求。这里的商品是广义商品概念,除了有形的产品外,还可以是无形的软件和服务。商品的评论标签不仅可以节省用户看评论的时间,也可以更快地让商品提供商得到用户的反馈,因此自动抽取商品的用户评论中用户的观点以及自动生成商品的评论标签有重要的实用价值。目前普遍使用的用户评论的观点提取和聚类的方法主要是基于规则的提取和K-means、LDA等传统方法。在基于规则的观点提取方法中,用户的评论中观点陈述句具有固定的句式结构,通过句法分析工具以及规则可以简单有效地抽取到用户评论中的观点。但是这种抽取观点的方法只对部分观点有效,因为依赖人工总结出来的规则不能涵盖所有用户评论中的表述方式。同时,这种方法仅对陈述句有效,中文会有很多种表达方式,因而这种方法无法直接适用。对于文本常用的聚类方法主要是以LDA为代表的主题模型和以K-means为代表的传统聚类方法。这些传统方法的好处在于模型简单,当样本较多时能够在较短的时间内收敛。但这些方法都是初值敏感的,即聚类的尺度无法控制,同一个类别下的共性可能不是语义上的相似性。同时,对于不同类别不同极性的商品评论观点用同一个标签并不适用。因此,无论是观点抽取,还是对观点进行聚合都有可以提升的空间,在观点抽取部分可提升召回率,在 ...
【技术保护点】
1.一种用户评论观点提取和观点标签生成的方法,其特征在于,该方法包括以下步骤:(1)用户评论观点提取,即提取出某一个具体商品的某一条具体评论中的用户观点。具体包括以下子步骤:(1.1)构建初始的用户评论观点的种子词性规则库{rules}。(1.2)基于评论观点的种子词性规则库{rules}对用户评论进行处理,迭代地进行评论观点的词性规则的自动发现,得到全量的用户评论观点的词性规则库{rulestotal}。(1.3)基于所有的观点的词性规则集{rulestotal},在词性标注后的用户评论中进行词性严格匹配,得到所有的用户评论观点{opinionstotal}。(2)对提取到的用户评论观点进行聚合生成用户评论观点标签,即指综合多个用户对该商品的评价,生成若干个概括性的观点标签。具体包括以下子步骤:(2.1)对所有的用户评论观点{opinionstotal}中的属性词进行词的层次化聚类,基于商品的类目树结构的自顶向下地生成商品的属性词词库。(2.2)判断用户评论的观点极性。(2.3)对每一款商品的评论观点的情感词进行词的层次化聚类生成评论观点标签。
【技术特征摘要】
1.一种用户评论观点提取和观点标签生成的方法,其特征在于,该方法包括以下步骤:(1)用户评论观点提取,即提取出某一个具体商品的某一条具体评论中的用户观点。具体包括以下子步骤:(1.1)构建初始的用户评论观点的种子词性规则库{rules}。(1.2)基于评论观点的种子词性规则库{rules}对用户评论进行处理,迭代地进行评论观点的词性规则的自动发现,得到全量的用户评论观点的词性规则库{rulestotal}。(1.3)基于所有的观点的词性规则集{rulestotal},在词性标注后的用户评论中进行词性严格匹配,得到所有的用户评论观点{opinionstotal}。(2)对提取到的用户评论观点进行聚合生成用户评论观点标签,即指综合多个用户对该商品的评价,生成若干个概括性的观点标签。具体包括以下子步骤:(2.1)对所有的用户评论观点{opinionstotal}中的属性词进行词的层次化聚类,基于商品的类目树结构的自顶向下地生成商品的属性词词库。(2.2)判断用户评论的观点极性。(2.3)对每一款商品的评论观点的情感词进行词的层次化聚类生成评论观点标签。2.根据权利要求1所述的用户评论观点提取和观点标签生成的方法,其特征在于,所述步骤1.2具体包括以下子步骤:(1.2.1)利用初始的观点的词性规则集{rules}对词性标注后的全量用户评论进行词性严格匹配,得到用户评论的观点库{opinions}。所述词性严格匹配是指评论语句的带词性标注后的句式结构和观点的词性规则集中的规则完全相同时才提取出相应的观点。(1.2.2)利用用户评论观点库{opinions}在词性标注后的全量用户评论中进行词的宽松匹配,提取词性规则后得到新的用户评论观点的词性规则库{rulesnew}。所述词的宽松匹配是指在限制长度内,只需按顺序依次出现了观点库{opinions}中某个观点中的各个词,则认为匹配成功。(1.2.3)重复步骤1.2.1和步骤1.2.2,直至无法发现新的观点的词性规则,得到所有的观点的词性规则集{rulestotal}。3.根据权利要求1所述的用户评论观点提取和观点标签生成的方法,其特征在于,所述步骤2.1和2.3中词的层次化聚类方法,具体包括以下步骤:(a)对于每个词,先采用word2vec方法对全量用户评论训练得到的一个词向量。(b)给定...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。