一种结合依存句法分析和规则的中英文评论观点挖掘方法技术

技术编号:32537484 阅读:16 留言:0更新日期:2022-03-05 11:33
本发明专利技术涉及文本挖掘技术领域,公开了一种结合依存句法分析和规则的中英文评论观点挖掘方法,该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇。本方法在减少人工标注数据成本的同时在一定程度上改善了对候选观点筛选精度不高等问题,并且对于每个观点以及观点所在的子句进行短语以及单句级别的情感判断,捕获消费者在同一商品不同属性维度上的情感倾向,并依据情感分数对观点进行过滤,筛除不具备一定情感极性的观点,最终得到的细粒度观点反馈消费者对商品整体的情感倾向,有利于商家及时做出决策。商家及时做出决策。商家及时做出决策。

【技术实现步骤摘要】
一种结合依存句法分析和规则的中英文评论观点挖掘方法


[0001]本专利技术涉及文本挖掘
,具体为一种结合依存句法分析和规则的中英文评论观点挖掘方法。

技术介绍

[0002]对于大数据时代下的电商而言,平均每天都会产生成千上万的商品评论。评论内容一方面体现了卖家的口碑信誉,影响消费者的购物意向;另一方面,评价内容是消费者对商品质量及购物体验等的直接反馈,是商家与消费者进行互动的便捷方式。因此,对评价内容进行解析具有很高的实用价值。而评价内容涉及到多个属性,并且每个属性表达的情感、观点也具有多样性。因次,高效、准确地从评价中抽取细粒度观点是精准把握消费者购物理念,预测消费趋势和商品销售率的重要手段。
[0003]在现有的细粒度观点挖掘方法中,如专利号202110325886.7的技术方案使用神经网络配合标注数据进行有监督学习,首先对短文本数据集进行预处理,筛选有效数据,对数据集进行预标注工作,然后构建基于Target

Aspect

Opinion联合抽取的情感分析模型。本专利技术提出的联合抽取模型,解决了现有模型中单独抽取Target或Aspect等带来的识别不全面问题,以及通过构建TargetTaggers和Aspect

OpinionTaggers,有效解决了目标词重叠问题;专利号202110219489.1公开的一种新情感词提取方法,首先对中文商品评论语料库中的每条文本进行预处理以及分词;然后对语句进行句法分析生成语法树,遍历语法树形成对应的路径字符串,结合编辑距离来衡量两个词语所在语句的句法结构相似度,从而提取与旧情感词具有相似句法结构的新词作为候选新情感词;最后结合点互信息和正负语料差商系数计算候选新情感词的情感极性,将具有情感极性的词语加入新情感词集合。该方法考虑了上下文和句法信息,并解决了对候选词过滤精度不高的问题。它可以有效且准确地识别出新情感词,且新情感词的有效提取为文本情感分析也提供了基础支持。以上方法存在以下不足:(1)基于深度学习的方法需要标注预料,且需要在网络训练前定义属性词;(2)无法在定位属性词时抽取出观点。
[0004]针对上述问题,本专利技术提供了一种结合依存句法分析和规则的中英文评论观点挖掘方法。

技术实现思路

[0005]本专利技术的目的在于提供一种结合依存句法分析和规则的中英文评论观点挖掘方法,该方法可以有效识别出观点词汇,并且对观点进行情感极性判断和筛选,具有较高的准确率和召回率,通过该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇,减少人工标注数据成本的同时在一定程度上改善了对候选观点筛选精度不高的不足,从而解决了
技术介绍
中的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种结合依存句法分析和规则的中
英文评论观点挖掘方法,包括以下步骤:
[0007]S01:建立中英文评论语料库,并对其进行预处理操作;
[0008]S02:结合句法分析和规则提取属性级观点信息;
[0009]S03:对候选观点进行同义词替换,将语义相近的观点视为一类,并进行数量统计;
[0010]S04:分别设定正负阈值K,按观点出现次数从大到小的顺序排列,次数相同时按情感分数由高到低排列,最后截取出现次数大于相应阈值的观点。
[0011]进一步地,步骤S02中进行分析和提取时,首先利用依存句法分析提取文本的语法树信息,然后结合词汇的词性以及词汇间的依赖信息,提取出候选观点,最后对候选观点进行情感极性判别筛选出细粒度观点。
[0012]进一步地,步骤S02具体包括以下步骤:
[0013]S021:利用语种识别工具包language对评论文本进行语种判断;
[0014]S022:利用自然语言处理工具包Spacy对文本进行分句,然后利用该软件包对每个句子进行依存句法分析,提取句子的语法树信息;
[0015]S023:针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息;
[0016]S024:对步骤S022中Spacy处理后得到的每个子句,应用规则提取出相应词汇作为候选观点,并对候选观点进行停用词检查;
[0017]S025:构建一个正负词汇表,对步骤S024中得到的候选观点进行情感极性判断和筛选。
[0018]进一步地,步骤S024中,为抽取表达某一情感的观点,针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息。
[0019]进一步地,步骤S025中,对观点和句子同时进行情感极性判断,利用SnowNLP工具包对短语以及句子进行情感评分。
[0020]进一步地,SnowNLP工具包进行情感极性分析,并设定情感正阈值K和情感负阈值K

,根据正负阈值,将情感分析划分为正负两类,并从中筛除不带情感的观点词汇。
[0021]进一步地,情感极性判断的逻辑为,当情感分数大于设定的情感正阈值K时,视候选观点的情感极性为正,将其加入正词汇表中,当候选观点的情感分数小于设定的情感负阈值K

时,视情感极性为负,将其加入负词汇表中。
[0022]进一步地,Spacy自带的停用词库,将预处理步骤中去除的停用词与观点中的词汇进行比对,筛除包含停用词的观点。
[0023]进一步地,步骤S03中,利用Synonyms中、wordnet英工具包进行近义词替换
[0024]进一步地,步骤S04中,观点出现的次数小于设定的阈值K时,视为观点重要性不强,将其中候选集合中筛除。
[0025]本专利技术的有益效果如下:
[0026]1、一种结合依存关系和规则的评论中英文评论观点挖掘方法,通过该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇,减少人工标注数据成本的同时在一
定程度上改善了对候选观点筛选精度不高的问题。
[0027]2、一种结合依存关系和规则的评论中英文评论观点挖掘方法,利用语种识别工具包language对评论文本进行语种判断,利用自然语言处理工具包Spacy对文本进行分句,然后利用该软件包对每个句子进行依存句法分析,提取句子的语法树信息,针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息对于商品评论的观点挖掘,使得本挖掘方法能够从词性和语法关系的角度出发,归纳多条用于提取细粒度观点的规则,并在属性词的基础上挖掘评论观点。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合依存句法分析和规则的中英文评论观点挖掘方法,其特征在于,包括以下步骤:S01:建立中英文评论语料库,并对其进行预处理操作;S02:结合句法分析和规则提取属性级观点信息;S03:对候选观点进行同义词替换,将语义相近的观点视为一类,并进行数量统计;S04:分别设定正负阈值K,按观点出现次数从大到小的顺序排列,次数相同时按情感分数由高到低排列,最后截取出现次数大于相应阈值的观点。2.根据权利要求1所述的一种结合依存句法分析和规则的中英文评论观点挖掘方法,其特征在于,步骤S02中进行分析和提取时,首先利用依存句法分析提取文本的语法树信息,然后结合词汇的词性以及词汇间的依赖信息,提取出候选观点,最后对候选观点进行情感极性判别筛选出细粒度观点。3.根据权利要求2所述的一种结合依存句法分析和规则的中英文评论观点挖掘方法,其特征在于,步骤S02具体包括以下步骤:S021:利用语种识别工具包language对评论文本进行语种判断;S022:利用自然语言处理工具包Spacy对文本进行分句,然后利用该软件包对每个句子进行依存句法分析,提取句子的语法树信息;S023:针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息;S024:对步骤S022中Spacy处理后得到的每个子句,应用规则提取出相应词汇作为候选观点,并对候选观点进行停用词检查;S025:构建一个正负词汇表,对步骤S024中得到的候选观点进行情感极性判断和筛选。4.根据权利要求3所述的一种结合依存句法分析和规则的中英文评论观点挖掘方法,其特征在于,步骤S024中,为抽取表达某一情感的观点,针对...

【专利技术属性】
技术研发人员:陈焕坤万雨薇陈梓康张杨吴承霖
申请(专利权)人:深圳深度赋智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1