The invention discloses a Chinese text emotion analysis method based on the semantic ontology library. The invention comprises the following steps: Step 1, acquiring structured comments about the target a certain number of components to be analyzed according to the corpus, emotion ontology library provided by authoritative organizations, combining corpus through semantic analysis generalization get emotional ontology, emotional ontology contains emotional and emotional intensity limit; step 2, the emotional words and emotional words matching relationship the pretreatment, corpus segmentation, text analysis, matching ontology and comment sentence sentiment word, dependency relation information and emotional context corresponding emotion words of annotation. Among them, emotional information contains emotional intensity, emotional polarity and emotional word character, step 3, emotional calculation and emotional inclination judgment. The invention can classify the emotions more accurately according to the context.
【技术实现步骤摘要】
一种基于语义本体库中文文本情感分析方法
本专利技术属于自然语言处理领域,特别涉及中文文本情感分析方法,提供一种基于语义本体库中文文本情感分析方法。
技术介绍
随着互联网技术的快速发展,互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。与客观性文本不同的是,这些主观色彩浓厚的评论信息蕴含着大众舆论对上述目标实体的看法,对潜在用户、商家以及政府部门等具有十分重要的参考价值。然而,如果采用人工方式对这些海量信息进行收集和分析,显然是成本高昂、低效和困难的。利用计算机对非结构化的文本评论进行分类和提取的文本情感分析技术应运而生。目前,国内外使用最多的文本情感分析方式有两种,一是基于机器学习的情感分析;二是基于语义规则的情感分析。机器学习方法包括有监督、无监督和半监督情感分析,其中有监督和半监督的机器学习方法中分类起的训练需要一定数量经过标注的训练样本,然而人工标注过程相当耗时费力,成本昂贵,无监督学习则是无需标注的。基于语义规则的文本倾向性研究中,研究者一般考虑词语 ...
【技术保护点】
一种基于语义本体库中文文本情感分析方法,其特征在于包括如下步骤:步骤1、获取关于目标对象一定数量的结构化评论组成待分析的语料库,根据权威机构提供的情感本体库,结合语料库通过语义分析泛化得到情感本体库,情感本体库包含情感极限和情感程度;步骤2、对情感词匹配和情感词关系预处理,将语料库进行分词、文本分析、匹配本体库和评论句子中情感词,标注情感词的情感信息以及上下文对应的依存关系;其中,情感信息包含词的情感强度、情感极性和情感词词性;步骤3、情感计算和情感倾向判断;根据评论中情感信息以及依存关系,结合系统规则进行情感值计算,确定评论的情感倾向再结合机器学习方法二次处理,得到最终情感倾向结果。
【技术特征摘要】
1.一种基于语义本体库中文文本情感分析方法,其特征在于包括如下步骤:步骤1、获取关于目标对象一定数量的结构化评论组成待分析的语料库,根据权威机构提供的情感本体库,结合语料库通过语义分析泛化得到情感本体库,情感本体库包含情感极限和情感程度;步骤2、对情感词匹配和情感词关系预处理,将语料库进行分词、文本分析、匹配本体库和评论句子中情感词,标注情感词的情感信息以及上下文对应的依存关系;其中,情感信息包含词的情感强度、情感极性和情感词词性;步骤3、情感计算和情感倾向判断;根据评论中情感信息以及依存关系,结合系统规则进行情感值计算,确定评论的情感倾向再结合机器学习方法二次处理,得到最终情感倾向结果。2.根据权利要求1所述的一种基于语义本体库中文文本情感分析方法,其特征在于步骤1所述情感本体库构建,具体步骤如下:步骤1-1.使用网络机构中现有权威的情感本体库,去掉重复词之后作为原始本体库;;步骤1-2.从知网中下载同义词林,将原始本体库进行同义扩充;步骤1-3.为了得到丰富的情感本体库,引入word2vec工具,该工具能根据输入样本泛化推理得到和情感词语义相似的词;首先,将评论数据通过word2vec训练,得到向量空间,将本体库内情感词输入与样本空间中的词做相似计算,取出相似排名靠前的5个相似词;使用SO_PMI公式分别计算本体库情感词和筛选出的相似词的相关度,筛选得到更为丰富的情感本体库;SO_PMI定义了点互信息量的概念,用来计算两个词之间的语义相关性:P(w1&w2)表示词w1和w2同时出现的概率,C(w1&w2)表示词w1和w2同时出现的次数,N代表频率;P(w1)表示词w1出现的概率,P(w2)表示词w2出现的概率;C(w1)表示词w1出现的次数,C(w2)表示词w2出现的次数;对于未知情感的候选词语cw和情感强度i的基准情感词语集合BSWi;基于点互信息的语义倾向值SO_PMI(cw,BSWi)为候选词语cw和BSWi中所有的基准情...
【专利技术属性】
技术研发人员:姜明,杨智聪,张旻,汤景凡,程柳,杜炼,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。