结合用户情感表达方式的中文情感新词识别方法和系统技术方案

技术编号:13385820 阅读:56 留言:0更新日期:2016-07-22 00:13
本发明专利技术公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。通过本发明专利技术实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。

【技术实现步骤摘要】
结合用户情感表达方式的中文情感新词识别方法和系统
本专利技术实施例涉及计算机科学
,尤其是涉及一种结合用户情感表达方式的中文情感新词识别方法和系统。
技术介绍
作为情感词库的基本组成元素,情感词是大多数文本情感分析方法的基础。随着Web2.0技术的普及,社会媒体中用于表达情感的新词不断产生,自动识别这些情感新词对情感词库构建以及文本情感分析具有重要意义。如今,互联网上的海量社会媒体文本在给情感新词识别工作带来数据支持的同时也提出了严峻的技术挑战。以往的中文情感新词识别工作可以分为两类:其中一类工作通过句子中情感词的上下文识别新情感词,代表性工作包括:Wang等("ABootstrappingMethodforExtractingSentimentWordsUsingDegreeAdverbPatterns,"in2012InternationalConferencesonComputerScience&ServiceSystem(CSSS),2012,pp.2173-2176)将传统情感词的前后词汇作为匹配新情感词的上下文模板,并采用Bootstrapping策略不断产生新的情感词及上下文模板;另一类工作以新词发现为基础,通过筛选新词集合中的情感词实现情感新词识别,代表性工作包括:桑等("基于广义Jaccard系数的微博情感新词判定,"山东大学学报(理学版),2015,50(07),pp.71-75)基于现有分词工具识别新词,根据左右邻接词对新词以及传统情感词进行特征表示,并通过广义Jaccard系数计算新词与传统情感词的特征向量相似度,进而从新词集合中筛选情感新词。其中,上述第二类工作大多通过定义统计指标挖掘文本中的新词,相关统计指标包括:点互信息("UnknownChinesewordextractionbasedonvarietyofoverlappingstrings,"InformationProcessing&Management,2013,49(2),pp.497-512)、邻接熵("Chinesewordsegmentationbasedoncontextualentropy,"Proceedingsofthe17thAsianPacificconferenceonlanguage,informationandcomputation,2003,pp.152-158)、构词能力及灵活度("微博新词发现及情感倾向判断分析,"山东大学学报(理学版),2015,50(01),pp.20-25)等;在新词发现的基础上,相关工作根据新词与传统情感词在文本中的共现情况或上下文相似性识别其中的情感词,如:基于“情感倾向点互信息(SOPMI)”识别情感词("Thumbsuporthumbsdown?:semanticorientationappliedtounsupervisedclassificationofreviews,"Proceedingsofthe40thannualmeetingonassociationforcomputationallinguistics,2002,pp.417-424)。以往中文情感新词识别方法主要存在以下不足:(1)大量方法在中文分词结果的基础上识别情感新词,因而难以识别分词工具无法正确切分的词;(2)基于新词发现的方法可能将新词发现阶段的错误传递到后续的情感词识别任务中,导致该类方法精度偏低;(3)现有方法仅利用词的上下文文本信息识别情感新词,忽略了词背后的用户情感表达方式等信息。有鉴于此,特提出本专利技术。
技术实现思路
本专利技术实施例的主要目的在于提供一种结合用户情感表达方式的中文情感新词识别方法,其至少部分地解决了如何提高情感新词识别的精度和灵活度的技术问题。此外,还提供一种结合用户情感表达方式的中文情感新词识别系统。为了实现上述目的,根据本专利技术的一个方面,提供了以下技术方案:一种结合用户情感表达方式的中文情感新词识别方法,所述方法至少包括:获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。根据本专利技术的另一个方面,还提供了一种结合用户情感表达方式的中文情感新词识别系统,所述系统至少包括:获取单元,用于获取输入文本;第一构建单元,用于基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;过滤单元,用于使用中文旧词词库对所述候选新词集合进行过滤;第二构建单元,用于基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;第三构建单元,用于基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;筛选单元,用于基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。与现有技术相比,上述技术方案至少具有以下有益效果:本专利技术实施例通过预设词频阈值构建候选新词集合,然后使用中文旧词词库对候选新词集合进行过滤;之后基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合。从字、词内部和词外部三个层次共同发现新词,在此基础上,基于情感倾向点互信息确定初始情感新词;最后基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词,提高了情感新词识别的效果。所以,本专利技术实施例能够根据实际需要确定输出的情感新词集合的大小,具有灵活度较高的技术效果。当然,实施本专利技术的任一产品不一定需要同时实现以上所述的所有优点。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,至少部分地从说明书中变得显而易见,或者通过实施本专利技术而被了解。本专利技术的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。附图说明附图作为本专利技术的一部分,用来提供对本专利技术的进一步的理解,本专利技术的示意性实施例及其说明用于解释本专利技术,但不构成对本专利技术的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:图1为根据一示例性实施例示出的结合用户情感表达方式的中文情感新词识别方法的流程示意图;图2为根据一示例性实施例示出的结合用户情感表达方式的中文情感新词识别系统的结构示意图。这些附图和文字描述并不旨在以任何方式限制本专利技术的构思范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式下面结合附图以及具体实施例对本专利技术实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领本文档来自技高网
...

【技术保护点】
一种结合用户情感表达方式的中文情感新词识别方法,其特征在于,所述方法至少包括:获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。

【技术特征摘要】
1.一种结合用户情感表达方式的中文情感新词识别方法,其特征在于,所述方法至少包括:获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词;其中,所述情感表达方式包括情感表达显著性和情感表达强度;所述基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,具体包括:基于所述情感表达显著性,将所述输入文本中涉及的用户划分为情感表达外显组、情感表达内敛组和其他组;基于所述情感表达强度,将所述输入文本中涉及的用户划分为高强度情感组和中低强度情感组;统计所述输入文本中涉及的用户使用所述候选新词的次数;基于所述情感表达外显组、所述情感表达内敛组、所述其他组、所述高强度情感组和所述中低强度情感组以及所述用户使用所述候选新词的次数,计算所述初始情感新词集合中各词的情感表达显著性得分和情感表达强度得分;根据所述情感表达显著性得分和所述情感表达强度得分,从所述初始情感新词集合中筛选所述高置信度情感新词。2.根据权利要求1所述的方法,其特征在于,所述基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合,具体包括:根据以下公式计算所述过滤的候选新词集合中各候选新词的所述构词能力、所述点互信息、所述灵活度和所述邻接熵:Flexibility(t)=min(FlexibilityL(t),FlexibilityR(t)),AdjacencyEntropy(t)=min(AdjacencyEntropyL(t),AdjacencyEntropyR(t)),其中,所述c表示单字;所述WFP(c)为所述c的构词能力,所述f(c)表示所述c在所述输入文本中的出现次数;所述f(words|c)表示包含所述c的词在所述输入文本中的出现次数;所述t表示候选新词;所述CharSet(t)表示所述t对应的字符集合;所述PMI(t)表示所述t的点互信息;所述N表示语料规模;所述n表示所述t的长度;所述f(t)表示所述t在所述输入文本中的出现次数;所述CharSequence(t)表示所述t的字符序列;所述Flexibility(t)表示所述t的灵活度;所述FlexibilityL(t)和FlexibilityR(t)分别表示所述t的左灵活度和右灵活度;所述NL(c|t)和NR(c|t)分别表示所述输入文本中出现在所述t左边和右边的不同字符数目;所述suf(c)和pre(c)分别表示字符c的后缀率和前缀率;所述f(word1=c)和f(wordn=c)分别表示所述输入文本中所述c作为词首和词尾的出现次数;所述AdjacencyEntropy(t)表示所述t的邻接熵;所述AdjacencyEntropyL(t)和AdjacencyEntropyR(t)分别表示所述t的左邻接熵和右邻接熵;所述LeftCharSet(t)和RightCharSet(t)分别表示与所述t左相邻和右相邻的字符集合;所述f(c,t)表示所述c作为所述t的左邻居出现的次数;所述f(t,c)是所述c作为所述t的右邻居出现的次数;选取所述构词能力大于等于第二预设阈值、所述点互信息大于等于第三预设阈值、所述灵活度大于等于第四预设阈值且所述邻接熵大于等于第五预设阈值的候选新词,构建所述新词集合。3.根据权利要求1所述的方法,其特征在于,所述基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合,具体包括:根据以下公式计算所述新词集合中各新词的情感倾向点互信息:其中,所述SOPMI(t)表示词t的“情感倾向点互信息”;所述PMI(t,w)表示所述词t与词w之间的点互信息;所述PosSet表示正向传统情感词集合;所述NegSet表示负向传统情感词集合;所述N表示语料规模;所述f(t,w)表示所述词t和所述词w共同出现于一个文本中的次数;所述f(t)和所述f(w)分别表示所述词t和所述词w在所述输入文本中的出现次数;选取所述情感倾向点互信息的绝对值大于等于第六预设阈值的新词,构建所述初始情感新词集合。4.根据权利要求1所述的方法,其特征在于,所述基于所述情感表达显著性,将所...

【专利技术属性】
技术研发人员:林俊杰毛文吉刘春阳王磊苗琳
申请(专利权)人:中国科学院自动化研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1