一种本体和句法依存结合的微博情感分析法制造技术

技术编号:21630492 阅读:34 留言:0更新日期:2019-07-17 11:35
本发明专利技术公开了一种本体和句法依存结合的微博情感分析法,包括以下步骤:半自动构建主题相关的本体,并将本体持久化到数据库;利用句法依存关系对本体从本体维度和情感词汇两个方面进行扩充和更新;利用本体对微博信息进行情感权值计算,确定情感倾向。与传统机器学习分类算法进行比较,本发明专利技术在中文微博数据集上具有可行性和优越性。

An Emotional Analysis Method of Micro-blog Based on Ontology and Syntactic Dependence

【技术实现步骤摘要】
一种本体和句法依存结合的微博情感分析法
本专利技术属于文本情感分析
,特别涉及一种本体和句法依存结合的微博情感分析法。技术背景随着移动互联网的普及,微博作为社交平台,在拥有大量用户的基础上,已经成为新闻热点事件最快的消息来源。由于用户的粘度高,微博包含了海量的网民日常信息,其中包括对于各产品的使用评价。而因为一些原因,产品自身网店的评价数据不够客观,反之因为微博的日常性,用户评价更客观,更具有挖掘价值。因此对于企业来说,从微博中获取用户对产品的评价并加以情感分析,是企业决策必备的信息基础。微博数据以文本数据为主,对于文本数据的情感倾向分析是近几年研究的热点,主要分为机器学习和本体分析两种方式。基于机器学习的方法中分类器多基于人工构建,在针对大型数据集时建模过程过于复杂和冗长,且人工操作较难。为了解决上述问题,本体的构建方法被提出。本体是一种形式化的,对于共享概念体系的明确而又详细的说明,它能够从语义层面上描述概念。上述基于本体的情感分析在本体初始构建之后,均不会更新本体,在实现过程中对初始构建的准确性要求过高,事实证明本体的维度会随数据的扩充而增大。
技术实现思路
本专利技术提出了一种本体和句法依存相结合的微博情感分析方法,目的是更准确地从微博中获取相关情感信息。对于微博信息半自动构建其初始本体,然后依照相关的文本数据,利用句法依存分析原理从产品维度、情感词汇两个方面自动化更新和优化本体,从而得到成熟本体。再借用成熟本体,利用本专利技术提出的新情感权值计算方法,衡量文本数据的情感权值和倾向性,从而准确地实现情感分析。本专利技术的技术方案如下:一种本体和句法依存结合的微博情感分析法,包括以下步骤:步骤(1):半自动构建主题相关的本体,并将本体持久化到数据库;步骤(2):利用句法依存关系对本体从本体维度和情感词汇两个方面进行扩充和更新;步骤(3):利用本体对微博信息进行情感权值计算,确定情感倾向。进一步的,所述的步骤(1)具体为:步骤(1.1):通过Protégé软件采用七步法传统构建方法构建本体:明确构建本体所属领域范畴;考虑复用本体的可能性;陈列领域重要术语;定义类及其等级体系;定义类的属性;定义属性的分面;创建实例;步骤(1.2):使用Jena包将本体转换成数据库,从语义层面提取数据,并将其转化为模型数据的获取来源是数据库或文件。进一步的,步骤(1.2)中的转换的过程如下:①安装好必要的软件并配置好开发环境Eclipse+MySQLServer5.5-win32+jena2.6.4+protege5.1.0+mysql-connector-java-5.1.35(MySQL的JDBC);②用protege5.1.0构建好产品本体,并主动生成OWL本体文件;③利用MySQL创建一个数据库;④打开Eclipse,新建一个Java工程;⑤新建工程的同时,分别导入Jena包和MySQL的JDBC;⑥在工程目录下新建一个Java类,名字为military_ontology.java;⑦在military_ontology.java中开始编写代码并运行;⑧成功将本体转换为数据库;使用Jena将初始本体转换成功后会生成7张表,jena_g1t1_stmt是存储本体内容的表。进一步的,所述的步骤(2)具体为:步骤(2.1):通过句法依存分析技术对产品本体的本体维度进行扩展:句子中存在述语动词作为支配其它成分的中心,而述语动词本身不受其它成分支配,受支配成分以某种依存关系从属于支配者,存语法结构是以依存关系作为主要元素,即词对二元关系组,在二元关系中,支配者称为核心词,从属者称为依存词,使用StanfordParser句法依存分析器进行句法分析:StanfordParser对于句法关系以类型化依赖关系来进行扩展选择,在扩展维度时关注包含关键词的两个关系式,即nn和assmod,nn表示的是名词组合形式,assmod表示关联修饰,基于两个名词短语的依赖关系;对于新获得的下属维度,将发现好的关系存入本体数据库步骤如下:首先设置新维度类型为class,然后将其列为对应父维度的子类;步骤(2.2):对于情感词汇的扩充方式如下:利用StanfordParser,在句法依赖分析的基础上,扩充情感词汇关注另外两个关系式,即amod和nsubj,amod表示形容词修饰语,即常见的名词前形容词,nsubj表示名词性主语,用于表示主语和宾语之间的联系;情感词汇属于实例,插入本体数据库的步骤如下:首先设置其类型为NamedIndividual,然后依照描述类别将其列为该类别的情感词汇,最后将其情感权值插入数据库,情感权值从情感词典中获得。进一步的,所述的步骤(3)具体为:对每句话情感权值采用的计算公式是:其中n是一句话包含的情感词数,Prii指的是否定词权值,在计算情感权值时如果单词i是否定词修饰的词,则需乘上否定词的权值,一般为负数,如果否定词的权值词典中不包含,则默认为-1;Valuei指的是单词本身的情感权值,来源于情感权值词典;Dimeni表示第i个词语所在维度的权值,其计算公式如下:Dimeni=Perclass_i*Perwords_i其中Perclass_i指的是第i个词语所在维度的下属类在整体类中占的数量比例,Perwords_i指的是第i个词语所在维度的情感评估词数在整体评估词中占的数量比例;在查询维度类和情感词时使用本体自带的SPARQL查询语言,使用Jena包的接口从已经转成数据库的本体中利用SPARQL语句提取出和类、实例相关的数据;TIi是指词语的TF*IDF权值,其计算公式如下:Tfij是指单词的tf值,用来表示某个词在当前文档中出现的比例,其中分子表示单词ti在文档j中出现的次数,分母表示文档j所有单词数之和;Idfij是单词idf值,称为逆向文件频率,指的是文件总数目除以包含关键词的文件数目,再取对数得到的结果,其中分子表示文件总数,分母表示包含单词ti的文件数目之和,为了保证分母永正,分母部分加1;利用本体自带的SPARQL查询语句,对于每一句语句直接进行词匹配,以找到其在本体中的维度和情感类别及权值,再运用上述公式即可算出情感权值。附图说明图1是本体和句法依存相结合微博情感分析流程图。图2是鸿茅药酒本体部分展示图。图3是本专利技术所计算情感指数与SVM和朴素贝叶斯分类器分类效果对比图。具体实施方式为使本领域的技术人员更好地理解本专利技术的技术方案,下面对本专利技术提供的一种本体和句法依存结合的微博情感分析法进行详细描述。以下实施例仅用于说明本专利技术而非用于限制本专利技术的范围。实施例一种本体和句法依存相结合的微博情感分析方法,包括以下步骤:1、微博数据的前期处理对于爬取的微博数据需要进行前期处理,主要包括:(1)统一中英文标点符号,统一全角和半角符号;(2)将表情符号直接转换为对应的中文;(3)去除“回复:”“回复天气好:”“回复@天气好:”等关于回复的冗余信息;(4)去除特殊符号『|〔|〕|$|丨|「|」|△|▲|▼|▍|■等;(5)去掉除了,。!等表分割句子的其他标点符号;(6)利用结巴分词进行词汇分割;(7)去除停用词。2、初始本体的创建和持久化(1)本体的半自动创建本专利技术在构建时采用七步法传统构建方法。七步法本文档来自技高网...

【技术保护点】
1.一种本体和句法依存结合的微博情感分析法,其特征在于,包括以下步骤:步骤(1):半自动构建主题相关的本体,并将本体持久化到数据库;步骤(2):利用句法依存关系对本体从本体维度和情感词汇两个方面进行扩充和更新;步骤(3):利用本体对微博信息进行情感权值计算,确定情感倾向。

【技术特征摘要】
1.一种本体和句法依存结合的微博情感分析法,其特征在于,包括以下步骤:步骤(1):半自动构建主题相关的本体,并将本体持久化到数据库;步骤(2):利用句法依存关系对本体从本体维度和情感词汇两个方面进行扩充和更新;步骤(3):利用本体对微博信息进行情感权值计算,确定情感倾向。2.根据权利要求1所述的本体和句法依存结合的微博情感分析法,其特征在于,所述的步骤(1)具体为:步骤(1.1):通过Protégé软件采用七步法传统构建方法构建本体:明确构建本体所属领域范畴;考虑复用本体的可能性;陈列领域重要术语;定义类及其等级体系;定义类的属性;定义属性的分面;创建实例;步骤(1.2):使用Jena包将本体转换成数据库,从语义层面提取数据,并将其转化为模型数据的获取来源是数据库或文件。3.根据权利要求2所述的本体和句法依存结合的微博情感分析法,其特征在于,步骤(1.2)中的转换的过程如下:①安装好必要的软件并配置好开发环境Eclipse+MySQLServer5.5-win32+jena2.6.4+protege5.1.0+mysql-connector-java-5.1.35(MySQL的JDBC);②用protege5.1.0构建好产品本体,并主动生成OWL本体文件;③利用MySQL创建一个数据库;④打开Eclipse,新建一个Java工程;⑤新建工程的同时,分别导入Jena包和MySQL的JDBC;⑥在工程目录下新建一个Java类,名字为military_ontology.java;⑦在military_ontology.java中开始编写代码并运行;⑧成功将本体转换为数据库;使用Jena将初始本体转换成功后会生成7张表,jena_g1t1_stmt是存储本体内容的表。4.根据权利要求3所述的本体和句法依存结合的微博情感分析法,其特征在于,所述的步骤(2)具体为:步骤(2.1):通过句法依存分析技术对产品本体的本体维度进行扩展:句子中存在述语动词作为支配其它成分的中心,而述语动词本身不受其它成分支配,受支配成分以某种依存关系从属于支配者,存语法结构是以依存关系作为主要元素,即词对二元关系组,在二元关系中,支配者称为核心词,从属者称为依存词,使用StanfordParser句法依存分析器进行句法分析:StanfordParser对于句法关系以类型化依赖关系来进行扩展选择,在扩展维度时关注...

【专利技术属性】
技术研发人员:朱群雄罗敏徐圆贺彦林
申请(专利权)人:北京化工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1