一种本体和句法依存结合的微博情感分析法制造技术

技术编号：21630492 阅读：34 留言：0更新日期：2019-07-17 11:35

本发明专利技术公开了一种本体和句法依存结合的微博情感分析法，包括以下步骤：半自动构建主题相关的本体，并将本体持久化到数据库；利用句法依存关系对本体从本体维度和情感词汇两个方面进行扩充和更新；利用本体对微博信息进行情感权值计算，确定情感倾向。与传统机器学习分类算法进行比较，本发明专利技术在中文微博数据集上具有可行性和优越性。

An Emotional Analysis Method of Micro-blog Based on Ontology and Syntactic Dependence

全部详细技术资料下载

【技术实现步骤摘要】
一种本体和句法依存结合的微博情感分析法
本专利技术属于文本情感分析
，特别涉及一种本体和句法依存结合的微博情感分析法。技术背景随着移动互联网的普及，微博作为社交平台，在拥有大量用户的基础上，已经成为新闻热点事件最快的消息来源。由于用户的粘度高，微博包含了海量的网民日常信息，其中包括对于各产品的使用评价。而因为一些原因，产品自身网店的评价数据不够客观，反之因为微博的日常性，用户评价更客观，更具有挖掘价值。因此对于企业来说，从微博中获取用户对产品的评价并加以情感分析，是企业决策必备的信息基础。微博数据以文本数据为主，对于文本数据的情感倾向分析是近几年研究的热点，主要分为机器学习和本体分析两种方式。基于机器学习的方法中分类器多基于人工构建，在针对大型数据集时建模过程过于复杂和冗长，且人工操作较难。为了解决上述问题，本体的构建方法被提出。本体是一种形式化的，对于共享概念体系的明确而又详细的说明，它能够从语义层面上描述概念。上述基于本体的情感分析在本体初始构建之后，均不会更新本体，在实现过程中对初始构建的准确性要求过高，事实证明本体的维度会随数据的扩充而增大。
技术实现思路
本专利技术提出了一种本体和句法依存相结合的微博情感分析方法，目的是更准确地从微博中获取相关情感信息。对于微博信息半自动构建其初始本体，然后依照相关的文本数据，利用句法依存分析原理从产品维度、情感词汇两个方面自动化更新和优化本体，从而得到成熟本体。再借用成熟本体，利用本专利技术提出的新情感权值计算方法，衡量文本数据的情感权值和倾向性，从而准确地实现情感分析。本专利技术的技术方案如下：一种本体...

【技术保护点】
1.一种本体和句法依存结合的微博情感分析法，其特征在于，包括以下步骤：步骤(1)：半自动构建主题相关的本体，并将本体持久化到数据库；步骤(2)：利用句法依存关系对本体从本体维度和情感词汇两个方面进行扩充和更新；步骤(3)：利用本体对微博信息进行情感权值计算，确定情感倾向。

【技术特征摘要】
1.一种本体和句法依存结合的微博情感分析法，其特征在于，包括以下步骤：步骤(1)：半自动构建主题相关的本体，并将本体持久化到数据库；步骤(2)：利用句法依存关系对本体从本体维度和情感词汇两个方面进行扩充和更新；步骤(3)：利用本体对微博信息进行情感权值计算，确定情感倾向。2.根据权利要求1所述的本体和句法依存结合的微博情感分析法，其特征在于，所述的步骤(1)具体为：步骤(1.1)：通过Protégé软件采用七步法传统构建方法构建本体：明确构建本体所属领域范畴；考虑复用本体的可能性；陈列领域重要术语；定义类及其等级体系；定义类的属性；定义属性的分面；创建实例；步骤(1.2)：使用Jena包将本体转换成数据库，从语义层面提取数据，并将其转化为模型数据的获取来源是数据库或文件。3.根据权利要求2所述的本体和句法依存结合的微博情感分析法，其特征在于，步骤(1.2)中的转换的过程如下：①安装好必要的软件并配置好开发环境Eclipse+MySQLServer5.5-win32+jena2.6.4+protege5.1.0+mysql-connector-java-5.1.35(MySQL的JDBC)；②用protege5.1.0构建好产品本体，并主动生成OWL本体文件；③利用MySQL创建一个数据库；④打开Eclipse，新建一个Java工程；⑤新建工程的同时，分别导入Jena包和MySQL的JDBC；⑥在工程目录下新建一个Java类，名字为military_ontology.java；⑦在military_ontology.java中开始编写代码并运行；⑧成功将本体转换为数据库；使用Jena将初始本体转换成功后会生成7张表，jena_g1t1_stmt是存储本体内容的表。4.根据权利要求3所述的本体和句法依存结合的微博情感分析法，其特征在于，所述的步骤(2)具体为：步骤(2.1)：通过句法依存分析技术对产品本体的本体维度进行扩展：句子中存在述语动词作为支配其它成分的中心，而述语动词本身不受其它成分支配，受支配成分以某种依存关系从属于支配者，存语法结构是以依存关系作为主要元素，即词对二元关系组，在二元关系中，支配者称为核心词，从属者称为依存词，使用StanfordParser句法依存分析器进行句法分析：StanfordParser对于句法关系以类型化依赖关系来进行扩展选择，在扩展维度时关注...

【专利技术属性】
技术研发人员：朱群雄，罗敏，徐圆，贺彦林，
申请(专利权)人：北京化工大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人