当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于依存句法和泛化因果网络进行情感原因挖掘方法技术

技术编号:23315265 阅读:22 留言:0更新日期:2020-02-11 17:51
本发明专利技术属于自然语言处理领域,具体涉及一种基于依存句法和泛化因果网络进行情感原因挖掘方法,主要步骤为利用爬虫框架,爬取新闻数据,输入数据;预处理;提取文本的语义模式;判断;输出语句中因果关系;识别成对的因果关系事件;提取;抽取;构建网络;泛化处理以及评估。本发明专利技术充分解读句子中词语之间的隐含意思;对事件进行了泛化处理,提高了事件的匹配度。

A mining method of emotional cause based on dependency syntax and generalized causal network

【技术实现步骤摘要】
一种基于依存句法和泛化因果网络进行情感原因挖掘方法
本专利技术属于自然语言处理领域,具体涉及一种基于依存句法和泛化因果网络进行情感原因挖掘方法,是一种基于依存句法进行因果关系抽取,然后根据抽取的因果关系构建因果关系网络,根据此网络挖掘文本信息中激发情感产生和转移的触发事件。
技术介绍
随着社交网络平台的快速增长,越来越多的人倾向于在社交网络上表达他们的情感,情感原因挖掘也成为了自然语言处理方面一个新的挑战。近些年情感分析的研究重点主要是情感分类,但是有些时候我们更加关注激发情感产生和转移的触发事件。例如,制造商想知道产品销量高的原因和产品销量低的原因,政府想知道社会公信力下降的原因。本部分主要是介绍情感原因挖掘的研究现状。SophiaM.Y.Lee第一次提出情感原因挖掘这个概念,相关研究方案也是由语言学规则进行驱动,针对新闻文本中的情绪表达抽取对应的原因。该方法实验效果性能并不是很理想,准确率只能达到67.47%。在Sophia的工作基础上,Chen和Lee提出了一种基于规则的情感原因挖掘方法,将OCC模型引入情感原因挖掘,设计了新的情感原因抽取规则,缺点在于对于相同的情感定义,不同的研究人员的理解也一定会有差异,这样就导致在方案实施的过程中就会引起最终结果的差异,并且不会有很好的复现性。除了基于规则的方法外,Ghazi使用了CRFs进行了情感原因挖掘。但是它需要情感原因和情感关键词在同一个句子中,这就极大的限制了此方法的使用范围,扩展性有待改进。LinGu提出了一种基于QA的情感原因挖掘方法,但是到了更细粒度的场景下,分析结果可能就存在错误。本方法首先根据依存句法关系,对文本中的情感原因关系进行抽取,通过抽取的关系构建因果关系网络,然后对构建的网络进行泛化处理,从而可以达到更好的事件匹配。本方法不论是实验效果方面还是扩展性都有很大的突破。
技术实现思路
本方法主要是挖掘激发情感产生和转移的触发事件,发现文本的因果关系,找出其运行的规律。此方法在事件的预测、事件聚类和股市的预测中有广泛的应用价值,也可以帮助政府对社会媒体中的舆情进行有效的监控。本专利技术为解决
技术介绍
中提出的技术问题,所采用的技术方案如下:一种基于依存句法和泛化因果网络进行情感原因挖掘方法,该方法主要步骤为:首先根据依存句法抽取因果关系,然后利用抽取的因果关系构建泛化因果关系网络;具体如下:1)利用爬虫框架,爬取新闻数据,输入数据;2)对输入数据进行预处理;3)根据二元关系模型和语义分析,对文本进行语义模式提取;4)判断提取的语义模式是否属于因果关系语义模式;5)输出语句中的原因事件,结果事件与事件之间的因果关系;6)利用因果关系连接词来识别成对的因果关系事件;7)从确定的事件中提取更具体的因果事件;8)把因果事件抽取成为由一系列动词名词联合组成的事件;9)利用原因事件和结果事件构建因果关系网络,原因事件和结果事件建立连边;10)对事件做泛化处理;11)对因果事件进行预测;12)评估因果关系网络预测的结果,采用计算精确率P值,召回率R值和F值进行评估。本专利技术所述步骤1)中爬虫框架选自Heritrix、jspider、webmagic、webcollector中任一种。本专利技术所述步骤2)中预处理步骤包括断句、分词、词性标注或语义分析。本专利技术所述断句处理主要是利用现有的分词器实现。本专利技术所述分词器主要包括word分词器、Ansj分词器、斯坦福分词、Lucene&Nutch分词器、斯坦福分词器或Lucene&Nutch分词器。本专利技术所述步骤9)具体是:边代表事件之间的关系,箭尾指向原因事件,箭头指向结果事件;因果有传递性,即链式特性,多个匹配的因果头尾相接组成一个长链条。本专利技术所述步骤10)具体是:同一类的事件归为一个事件,泛化后的事件常表征一类事件,即抽象事件。本专利技术所述步骤11)具体是:预测导致A事件发生的原因事件,通过泛化的因果关系网络,找到A事件的结点,找到与其相关联的原因事件;然后找到一系类导致A事件发生的原因事件。有益效果:现有对于情感因果挖掘的方法,主要是采用了简单的规模模板的方法,没有有效的考虑语句中句子之间的句法关系,而且事件匹配效果也是差强人意。与现有技术相比,本方法主要是有以下几个有益效果:首先,本方法采用了句法依存的关系对句子进行语义解析,这样充分解读了句子中词语之间的隐含意思。其次,本方法采用了对事件进行了泛化处理,提高了事件的匹配度。最后,本方法有很好的扩展性,不仅可以应用到情感原因挖掘领域,而且还可以应用到任何原因挖掘领域。附图说明图1是基于依存句法进行因果关系抽取流程图;图2是一个简单的语义模式提取分析例子;图3是构建泛化因果关系网络流程图。具体实施方式以下结合附图和具体实施例对本专利技术做进一步详细的说明。实施例1本文提出的基于依存句法和泛化因果网络进行情感原因挖掘方法,主要是应用于发现文本的因果关系,找出其运行的规律。在挖掘情感原因时,可按照下面描述的步骤进行。图1是本专利技术基于依存句法进行因果关系抽取流程图。第一步:利用已有的爬虫框架webmagic,爬取天涯网站的新闻数据,作为本方法的输入数据。爬去方法主要是分为三步,首先根据种子链接,抽取目标链接放入待爬取队列;然后从页面中解析并抽取需要的信息,webmagic在这里会用Jsoup组件来解析html页面;最后处理数据,将已提取出来的数据以文件格式存放或者存入数据库以及搜索引擎索引库等。第二步:对天涯的文本数据进行预处理,在此过程中,本案例主要是选取带有情感词的句子,然后对这些句子进行断句、分词、词性标注和语义分析。对输入的文本数据根据标点符号对文本数据进行断句处理,主要利用斯坦福分词器,把每个句子分为一系列的词语;然后利用斯坦福的CTB对每一个词语进行词性标注。最后利用斯坦福解析器的对该句子进行语义分析。第三步:根据二元关系模型和语义分析,对文本进行语义模式提取。我们举例说明如何利用二元关系进行语义模式提取,例如“小明刚刚丢了一百元钱,所以他今天很不开心”,在这个句子中“小明刚刚丢了一百元钱”和“他今天不开心”属于因果事件,“所以”属于包含因果关系的谓语动词,则根据语义分析和二元关系模型对这句话提取的语义模式为[“小明丢钱”,“所以”,“他不开心”]。第四步:判断提取的语义模式是否属于情感因果关系语义模式,主要是根据语句是否包含因果关系连接词,如果语义模式中包含本文中确定的因果关系连接词,就认为属于情感因果关系语义模式。第五步:输出语句中的情感原因事件,情感结果事件。我们主要是通过语义模式匹配,判断事件属于情感原因事件还是情感结果事件。第六步:从确定的事件中提取更具体的因果事件,我们主要是通过去掉事件描述中的停顿词本文档来自技高网
...

【技术保护点】
1.一种基于依存句法和泛化因果网络进行情感原因挖掘方法,其特征在于,该方法主要步骤为:首先根据依存句法抽取因果关系,然后利用抽取的因果关系构建泛化因果关系网络;具体如下:/n1)利用爬虫框架,爬取新闻数据,输入数据;/n2)对输入数据进行预处理;/n3)根据二元关系模型和语义分析,对文本进行语义模式提取;/n4)判断提取的语义模式是否属于因果关系语义模式;/n5)输出语句中的原因事件,结果事件与事件之间的因果关系;/n6)利用因果关系连接词来识别成对的因果关系事件;/n7)从确定的事件中提取更具体的因果事件;/n8)把因果事件抽取成为由一系列动词名词联合组成的事件;/n9)利用原因事件和结果事件构建因果关系网络,原因事件和结果事件建立连边;/n10)对事件做泛化处理;/n11)对因果事件进行预测;/n12)评估因果关系网络预测的结果,采用计算精确率P值,召回率R值和F值进行评估。/n

【技术特征摘要】
1.一种基于依存句法和泛化因果网络进行情感原因挖掘方法,其特征在于,该方法主要步骤为:首先根据依存句法抽取因果关系,然后利用抽取的因果关系构建泛化因果关系网络;具体如下:
1)利用爬虫框架,爬取新闻数据,输入数据;
2)对输入数据进行预处理;
3)根据二元关系模型和语义分析,对文本进行语义模式提取;
4)判断提取的语义模式是否属于因果关系语义模式;
5)输出语句中的原因事件,结果事件与事件之间的因果关系;
6)利用因果关系连接词来识别成对的因果关系事件;
7)从确定的事件中提取更具体的因果事件;
8)把因果事件抽取成为由一系列动词名词联合组成的事件;
9)利用原因事件和结果事件构建因果关系网络,原因事件和结果事件建立连边;
10)对事件做泛化处理;
11)对因果事件进行预测;
12)评估因果关系网络预测的结果,采用计算精确率P值,召回率R值和F值进行评估。


2.根据权利要求1所述的一种基于依存句法和泛化因果网络进行情感原因挖掘方法,其特征在于,所述步骤1)中爬虫框架选自Heritrix、jspider、webmagic、webcollector中任一种。


3.根据权利要求1所述的一种基于依存句法和泛化因果网络进行情感原因挖掘方法,其特征在于,所述步骤2)中预...

【专利技术属性】
技术研发人员:孙越恒谢英杰
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1