结合用户情感表达方式的中文情感新词识别方法和系统技术方案

技术编号：13385820 阅读：56 留言：0更新日期：2016-07-22 00:13

本发明专利技术公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中，该方法包括获取输入文本；基于所述输入文本中词频大于第一预设阈值的字符串，构建候选新词集合；使用中文旧词词库对所述候选新词集合进行过滤；基于统计指标从过滤的候选新词集合中筛选新词，构建新词集合；其中，所述统计指标为构词能力、点互信息、灵活度和邻接熵；基于情感倾向点互信息，从所述新词集合中识别情感新词，构建初始情感新词集合；基于所述输入文本中涉及的用户的情感表达方式，从所述初始情感新词集合中筛选高置信度情感新词，并将其作为所识别的中文情感新词。通过本发明专利技术实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
结合用户情感表达方式的中文情感新词识别方法和系统
本专利技术实施例涉及计算机科学
，尤其是涉及一种结合用户情感表达方式的中文情感新词识别方法和系统。
技术介绍
作为情感词库的基本组成元素，情感词是大多数文本情感分析方法的基础。随着Web2.0技术的普及，社会媒体中用于表达情感的新词不断产生，自动识别这些情感新词对情感词库构建以及文本情感分析具有重要意义。如今，互联网上的海量社会媒体文本在给情感新词识别工作带来数据支持的同时也提出了严峻的技术挑战。以往的中文情感新词识别工作可以分为两类：其中一类工作通过句子中情感词的上下文识别新情感词，代表性工作包括：Wang等("ABootstrappingMethodforExtractingSentimentWordsUsingDegreeAdverbPatterns,"in2012InternationalConferencesonComputerScience&ServiceSystem(CSSS),2012,pp.2173-2176)将传统情感词的前后词汇作为匹配新情感词的上下文模板，并采用Bootstrapping策略不断产生新的情感词及上下文模板；另一类工作以新词发现为基础，通过筛选新词集合中的情感词实现情感新词识别，代表性工作包括：桑等("基于广义Jaccard系数的微博情感新词判定,"山东大学学报(理学版),2015,50(07),pp.71-75)基于现有分词工具识别新词，根据左右邻接词对新词以及传统情感词进行特征表示，并通过广义Jaccard系数计算新词与传统情感词的特征向量相似度，进而...

【技术保护点】
一种结合用户情感表达方式的中文情感新词识别方法，其特征在于，所述方法至少包括：获取输入文本；基于所述输入文本中词频大于第一预设阈值的字符串，构建候选新词集合；使用中文旧词词库对所述候选新词集合进行过滤；基于统计指标从过滤的候选新词集合中筛选新词，构建新词集合；其中，所述统计指标为构词能力、点互信息、灵活度和邻接熵；基于情感倾向点互信息，从所述新词集合中识别情感新词，构建初始情感新词集合；基于所述输入文本中涉及的用户的情感表达方式，从所述初始情感新词集合中筛选高置信度情感新词，并将其作为所识别的中文情感新词。

【技术特征摘要】
1.一种结合用户情感表达方式的中文情感新词识别方法，其特征在于，所述方法至少包括：获取输入文本；基于所述输入文本中词频大于第一预设阈值的字符串，构建候选新词集合；使用中文旧词词库对所述候选新词集合进行过滤；基于统计指标从过滤的候选新词集合中筛选新词，构建新词集合；其中，所述统计指标为构词能力、点互信息、灵活度和邻接熵；基于情感倾向点互信息，从所述新词集合中识别情感新词，构建初始情感新词集合；基于所述输入文本中涉及的用户的情感表达方式，从所述初始情感新词集合中筛选高置信度情感新词，并将其作为所识别的中文情感新词；其中，所述情感表达方式包括情感表达显著性和情感表达强度；所述基于所述输入文本中涉及的用户的情感表达方式，从所述初始情感新词集合中筛选高置信度情感新词，具体包括：基于所述情感表达显著性，将所述输入文本中涉及的用户划分为情感表达外显组、情感表达内敛组和其他组；基于所述情感表达强度，将所述输入文本中涉及的用户划分为高强度情感组和中低强度情感组；统计所述输入文本中涉及的用户使用所述候选新词的次数；基于所述情感表达外显组、所述情感表达内敛组、所述其他组、所述高强度情感组和所述中低强度情感组以及所述用户使用所述候选新词的次数，计算所述初始情感新词集合中各词的情感表达显著性得分和情感表达强度得分；根据所述情感表达显著性得分和所述情感表达强度得分，从所述初始情感新词集合中筛选所述高置信度情感新词。2.根据权利要求1所述的方法，其特征在于，所述基于统计指标从过滤的候选新词集合中筛选新词，构建新词集合，具体包括：根据以下公式计算所述过滤的候选新词集合中各候选新词的所述构词能力、所述点互信息、所述灵活度和所述邻接熵：Flexibility(t)＝min(FlexibilityL(t),FlexibilityR(t))，AdjacencyEntropy(t)＝min(AdjacencyEntropyL(t),AdjacencyEntropyR(t))，其中，所述c表示单字；所述WFP(c)为所述c的构词能力，所述f(c)表示所述c在所述输入文本中的出现次数；所述f(words|c)表示包含所述c的词在所述输入文本中的出现次数；所述t表示候选新词；所述CharSet(t)表示所述t对应的字符集合；所述PMI(t)表示所述t的点互信息；所述N表示语料规模；所述n表示所述t的长度；所述f(t)表示所述t在所述输入文本中的出现次数；所述CharSequence(t)表示所述t的字符序列；所述Flexibility(t)表示所述t的灵活度；所述FlexibilityL(t)和FlexibilityR(t)分别表示所述t的左灵活度和右灵活度；所述NL(c|t)和NR(c|t)分别表示所述输入文本中出现在所述t左边和右边的不同字符数目；所述suf(c)和pre(c)分别表示字符c的后缀率和前缀率；所述f(word1＝c)和f(wordn＝c)分别表示所述输入文本中所述c作为词首和词尾的出现次数；所述AdjacencyEntropy(t)表示所述t的邻接熵；所述AdjacencyEntropyL(t)和AdjacencyEntropyR(t)分别表示所述t的左邻接熵和右邻接熵；所述LeftCharSet(t)和RightCharSet(t)分别表示与所述t左相邻和右相邻的字符集合；所述f(c,t)表示所述c作为所述t的左邻居出现的次数；所述f(t,c)是所述c作为所述t的右邻居出现的次数；选取所述构词能力大于等于第二预设阈值、所述点互信息大于等于第三预设阈值、所述灵活度大于等于第四预设阈值且所述邻接熵大于等于第五预设阈值的候选新词，构建所述新词集合。3.根据权利要求1所述的方法，其特征在于，所述基于情感倾向点互信息，从所述新词集合中识别情感新词，构建初始情感新词集合，具体包括：根据以下公式计算所述新词集合中各新词的情感倾向点互信息：其中，所述SOPMI(t)表示词t的“情感倾向点互信息”；所述PMI(t,w)表示所述词t与词w之间的点互信息；所述PosSet表示正向传统情感词集合；所述NegSet表示负向传统情感词集合；所述N表示语料规模；所述f(t,w)表示所述词t和所述词w共同出现于一个文本中的次数；所述f(t)和所述f(w)分别表示所述词t和所述词w在所述输入文本中的出现次数；选取所述情感倾向点互信息的绝对值大于等于第六预设阈值的新词，构建所述初始情感新词集合。4.根据权利要求1所述的方法，其特征在于，所述基于所述情感表达显著性，将所...

【专利技术属性】
技术研发人员：林俊杰，毛文吉，刘春阳，王磊，苗琳，
申请(专利权)人：中国科学院自动化研究所，国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人