本发明专利技术公开一种基于商品评论的新情感词提取方法,目的是在商品评论领域获取更多的新情感词。该方法具体为:对商品评论语料库的每条评论进行预处理、分词以及词性、位置标记,并根据依存关系及二元搭配抽取规则从评论中获取<主题词,评价词>二元组;采用相邻词词性及位置、主题词和表情符号位置等特征进行粗粒度提取新情感词,再利用语法树来发现具有同位关系的其他新情感词;通过点互信息值和语料频数计算对当前已经提取的新情感词做细粒度筛选。该方法提取的新情感词可以一定程度上扩大情感词的规模,为更加全面、准确地基于商品评论进行情感分析奠定基础。
A new emotion word extraction method based on commodity review
【技术实现步骤摘要】
一种基于商品评论的新情感词提取方法
本专利技术涉及文本分析
,特别涉及一种基于商品评论的新情感词提取方法。
技术介绍
在信息爆炸的互联网时代,电子商务也在逐渐改变着人们的工作与生活,越来越多的人习惯于网购,各大电商平台也成为了各种商品的主要销售渠道。为了更好地了解实际评价以及完善产品服务,电子商务网站几乎都会允许顾客对其所购买地商品发表评论观点。在这些评论中,包含了消费者对产品各个属性特征的评价以及情感观点。然而,这些商品评论信息不仅可以为其他消费者提供客观全面且真实的商品描述,也可以促进产品的研发及公司的发展,从而获得竞争优势。网络上存在海量的商品评论,这些评论中包含的大量有用信息,对这些评论进行挖掘及情感分析有着极大的实用价值。而对情感词的提取也是对商品评论进行情感分析的基本任务之一,情感词则是人们发表评价观点的最基本的语言单元。近年来,比较具有代表性的情感词典有知网情感词典(HowNet)、中国台湾大学的简体中文情感极性词典(NTUSD)、大连理工大学的情感词汇本体库等。但是现有情感词典在情感分析任务的使用中存在以下不足:(1)词典的规模小。绝大部分词典的规模在一万词语以下,无法很好地覆盖这海量的评论信息。(2)词典的词语比较传统。当前词典中几乎都是有一些已经具有明显情感倾向的词语,仍然存在一些新的或者是情感倾向不足够明显的情感词有待挖掘。例如,“好康”(褒义,释为好看)、“上头”(网络用语,释为一时冲动)。鉴于传统的通用词典对新情感词的识别能力不够,即有些新的、小众的情感词未被发现,本专利技术提出了一种基于商品评论的新情感词提取方法。该方法从相邻词词性及位置角度,并结合输入法联想的特点来根据表情符号的位置来提取新情感词,还利用语法树去发现具有同位关系的其他情感词,从而扩大了情感词的覆盖率,为后续的情感分析铺垫了一定的基础。
技术实现思路
本专利技术的目的是提供一种基于商品评论的新情感词提取方法,该方法具有覆盖面广、准确率高等优点。为实现该专利技术目的,本专利技术提供的新情感词提取方法,其特征在于,包括以下步骤:步骤1:建立商品评论语料并对其进行预处理。利用分词工具对语料中的每条评论进行分词以及词性、位置标记,并根据依存关系及二元搭配抽取规则提取<主题词,评价词>二元组词对;步骤2:对新词进行粗粒度提取。结合相邻词词性及位置、主题词和表情符号位置等特征统计旧情感词出现频率,再设置k=4的滑动窗口获取不同词性词语、主题词以及表情符号周围4个字符以内的词语。根据不同特征为候选词设置概率值,再进行概率综合计算,选择排序前30%的词作为候选新情感词;步骤2.1:利用标注好词性和位置信息的评论作为数据集进行训练,统计情感词出现在不同词性词语周围4个字符以内的频率;利用步骤1中根据依存关系及搭配规则所提取的<主题词,评价词>二元组作为数据集进行训练,统计评价词出现在主题词周围4个字符以内位置的频率;利用标注好表情符号位置信息的评论作为数据集进行训练,统计情感词出现在表情符号周围4个字符以内的频率;步骤2.2:设置长度为4个字符的滑动窗口来获取不同词性词语、主题词以及表情符号周围4个字符以内的词语,并加入候选词集合。步骤2.3:根据不同特征,依据它们的出现频率所占比例为每个词语分别设置概率值;步骤2.4:对候选词集合中的每个词语的概率值进行综合计算,并按照从大到小排序,选择前30%的词语加入新情感词候选集合;步骤3:将新情感词候选集合与现有情感词典对比后去重;步骤4:采用同位关系匹配方法进行补充提取,即利用语法树来为情感词匹配具有同等地位的新词,从而发现其他的新情感词;步骤4.1:对评论语句构建语法树,以语法树为特征,利用SVM(支持向量机)来训练,从而自动获取文本对应语法树的结构化信息。步骤4.2:通过计算两棵语法树T1和T2中相同子树的数目来衡量匹配度。匹配度的计算公式如下:其中,V1和V2分别表示T1和T2的节点集合,△(v1,v2)表示为以v1和v2为根节点的树中相同子树的数量。步骤4.3:若该新词所在的评论语句与某情感词的语句之间的匹配度达到阈值,则证明该词与情感词具有相同“地位”,即将该新词加入新情感词候选集合。步骤5:将目前已经提取的候选新情感词按照词频从大到小排序,设置阈值,删掉频率小于阈值的词语;步骤6:对已经提取的候选词进行细粒度筛选。结合“点互信息值”和“语料频数差”来筛选,二者值均为0时则删除,否则保留该新情感词;步骤6.1:对当前新情感词候选集合中的词进行点互信息计算,即计算两个词语的语义相似度,值越大则关联度越大。计算公式如(1)和(2),这里P(word1&word2)表示两个词语同时出现的概率,P(word1)、P(word2)表示word1、word2单独出现的概率,Pw为褒义基准词,Nw为贬义基准词。步骤6.2:对当前新情感词候选集合中的词进行语料频数计算,即计算该词在正向语料和负向语料中出现的频数差。计算公式如(3),这里Fpos(word)表示词word在正向语料中出现的次数,Fneg(word)表示词word在负向语料中出现的次数。D(word)=Fpos(word)-Fneg(word)(3)步骤6.3:若该点互信息值SO_PMI(word)等于0,则说明该候选词与情感词没有关联度,即不判定为情感词;若语料频数差值D(word)值为0,则证明它在正向语料中出现的次数与在负向语料中出现的次数相同,即不具有情感倾向性,故不判定为新情感词。若SO_PMI(word)和D(word)均为0,则删除该词。步骤7:与同义词词林做扩展,即找到与同义词词林中的词具有相同同义词的新词,则可认为这个新词也是新情感词;步骤8:再次与现有情感词典进行对比去重。本专利技术提供的基于商品评论的新情感词提取方法,其有益效果体现在:(1)本专利技术利用相邻词词性、主题词位置等特征来提取新情感词,且考虑到输入法联想的特点来根据表情符号位置特征发现情感词;(2)本专利技术利用语法树来发现具有同位关系的新情感词,具有很高的准确率,可以有效扩展新情感词的规模;(3)本专利技术利用点互信息值和语料频数法对所提取的新情感词候选集合做细粒度筛选,使得新情感词提取的判定更加合理。附图说明图1是本专利技术具体实施方式提供的新情感词提取方法数据流图。图2是本专利技术具体实施方式提供的粗粒度提取方法流程图。图3是本专利技术具体实施方式提供的同位关系匹配方法流程图。图4是本专利技术具体实施方式提供的语法树结构对比图。图5是本专利技术具体实施方式提供的细粒度筛选方法流程图。图6是本专利技术说明书摘要提供的新情感词提取方法流程图。具体实施方式以下通过具体实施例对本专利技术提供的新情感词提取方法做进一步解释说明。如图1所示,本专利技术提供的新情感词提取方法的流程本文档来自技高网...
【技术保护点】
1.一种基于商品评论的新情感词提取方法,其特征在于:首先采用相邻词词性及位置、主题词和表情符号位置等特征来粗粒度提取新情感词;然后根据同位关系匹配方法来发现其他情感词,即利用语法树来发现具有同位关系的其他新情感词。/n
【技术特征摘要】
1.一种基于商品评论的新情感词提取方法,其特征在于:首先采用相邻词词性及位置、主题词和表情符号位置等特征来粗粒度提取新情感词;然后根据同位关系匹配方法来发现其他情感词,即利用语法树来发现具有同位关系的其他新情感词。
2.根据权利要求1所述的粗粒度提取方法,其特征在于:结合相邻词词性及位置、主题词和表情符号位置等特征统计旧情感词出现频率,再设置k=4的滑动窗口获取不同词性词语、主题词以及表情符号周围4个字符以内的词语。
根据不同特...
【专利技术属性】
技术研发人员:张顺香,许汗清,尹畅,金鸣,徐善山,孟楠,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。