【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,更具体地,涉及一种基于子句关联的文本情感分 类系统和方法。
技术介绍
随着因特网的发展,越来越多的人在网上发布信息,其中包括了很多用户对产品 的评论。这些评论经常发表在购物网站、论坛和个人博客上,对潜在用户和生产厂商都很有 价值。对潜在用户而言,这些文本能帮助他们实现了解产品优缺点,并帮助他们做出最后 选择(购买哪种产品);对生产厂商而言,可以帮助他们了解用户评价,并根据评价改进产 品。由于这样的信息很多,人们希望计算机能够自动地分析、处理和总结,并将结果呈现给 用户。但是由于自然语言的多样性和随意性,计算机的自动处理存在多种困难,需要一些技 术来解决。产品评论分析可以是多层次、多角度的,其中的一种分析是确定文本的情感极性。 例如,确定某篇文本是正面的(说某种产品好),或者负面的(说某种产品不好),或者是中 性的。总的来说,确定文本的情感极性有两种方式监督式和非监督式。监督式需要一个 人工标注的训练样本集,而非监督式则不需要。由于训练样本集需要人工标注,而且一般是 基于特定领域的,也就是说,不同领域需要不同的训练样本集,所以构建训 ...
【技术保护点】
一种文本情感极性分类系统,包括:子句划分单元,用于根据标点符号和话语标记把文本划分为多个子句;子句连接方式确定单元,用于以句子为单位,确定所述句子中所包含的各子句的连接方式;子句情感强度计算单元,用于根据句子中所包含的各子句的连接方式和各子句所包含的情感词的情感强度,计算所述句子中所包含的各子句的情感强度;文本情感极性计算单元,用于根据所述文本中的所有子句的情感强度,计算所述文本的情感极性;情感词情感强度更新单元,用于根据所述文本的情感极性和情感词所属的子句与所属句子中所包含的其他子句的连接方式,更新情感词的情感强度;控制器,用于控制上述各个单元的操作,直至文本情感极性计算 ...
【技术特征摘要】
1.一种文本情感极性分类系统,包括子句划分单元,用于根据标点符号和话语标记把文本划分为多个子句; 子句连接方式确定单元,用于以句子为单位,确定所述句子中所包含的各子句的连接 方式;子句情感强度计算单元,用于根据句子中所包含的各子句的连接方式和各子句所包含 的情感词的情感强度,计算所述句子中所包含的各子句的情感强度;文本情感极性计算单元,用于根据所述文本中的所有子句的情感强度,计算所述文本 的情感极性;情感词情感强度更新单元,用于根据所述文本的情感极性和情感词所属的子句与所属 句子中所包含的其他子句的连接方式,更新情感词的情感强度;控制器,用于控制上述各个单元的操作,直至文本情感极性计算单元所计算出的文本 的情感极性不再改变和/或情感词情感强度更新单元不再更新所有情感词的情感强度,此 时输出所计算出的文本的情感极性,作为最终确定的文本情感极性。2.根据权利要求1所述的文本情感极性分类系统,其中子句连接方式确定单元根据连 接词和连接方式对照表,基于各子句中所包含的连接词,确定各子句的连接方式。3.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括 求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;并列连接关系处理单元,用于在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否 一致;以及如果各子句的情感极性不一致,则将各子句的情感极性均调整为与具有最大情感强度 绝对值的子句的情感极性相一致。4.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括 求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;并列连接关系处理单元,用于在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否 一致;以及如果各子句的情感极性不一致,则将各子句的情感强度均调整为与具有最大情感强度 绝对值的子句的情感强度相同。5.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括 求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;转折连接关系处理单元,用于在句子中所包含的各子句的连接方式为转折连接方式时,将非转折子句的情感极性调 整为与转折子句相一致。6.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括 求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;条件连接关系处理单元,用于在句子中所包含的各子句的连接方式为条件连接方式时,将各子句的情感强度均调整 为无情感强度。7.根据权利要求1所述的文本情感极性分类系统,其中文本情感极性计算单元对所述 文本中所包含的各子句的情感极性或情感强度求和,作为所述文本的情感强度,以及将所 述文本的情感强度的极性作为所述文本的情感极性。8.根据权利要求1所述的文本情感极性分类系统,其中情感词情感强度更新单元包括并列连接关系处理单元,用于在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的 连接方式为并列连接方式时,将所述情感词在正情感极性文本中出现的频率Fp增加预定 值;在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的 连接方式为并列连接方式时,将所述情感词在负情感极性文本中出现的频率&增加预定 值;以及情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。9.根据权利要求1所述的文本情感极性分类系统,其中情感词情感强度更新单元包括转折连接关系处理单元,用于在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的 连接方式为转折连接方式时,如果所述情感词所属的子句是非转折子句,则将所述情感词在正情感极性文本中出现 的频率Fp减少预定值;以及如果所述情感词所属的子句是转折子句,则将所述情感词在正情感极性文本中出现的 频率Fp增加预定值;在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的 连接方式为转折连接方式时,如果所述情感词所属的子句是非转折子句,则将所述情感词在负情感极性文本中出现 的频率Fn减少预定值;以及如果所述情感词所属的子句是转折子句,则将所述情感词在负情感极性文本中出现的 频率Fn增加预定值;以及情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。10.根据权利要求1所述的文本情感极性分类系统,其中情感词情感强度更新单元包括条件连接关系处理单元,用于在情感词所属的子句与所属句子中所包含的其他子句的 连接方式为条件连接...
【专利技术属性】
技术研发人员:赵凯,邱立坤,胡长建,
申请(专利权)人:日电中国有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。