基于社交媒体图表示模型的社会风险事件抽取方法技术

技术编号：13747569 阅读：129 留言：0更新日期：2016-09-24 04:24

本发明专利技术公开了一种基于社交媒体图表示模型的社会风险事件抽取的方法。包括如下步骤：1)采用HCCG模型对事件建模，定义实体关系生成规则，刻画事件属性，利用词级别与流级别的上下文对事件进行多粒度抽取；2)根据被抽取事件的HCCG图，利用最大公共子图和最小公共超图的信息量之比进行相似度计算；3)通过社交媒体的上下文信息对HCCG进行增量式聚类，在聚类过程中逐渐突出新闻的事件要素；4)通过基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件。本发明专利技术能有效地汇聚分散的社交媒体信息，直观地用实体关系模型多粒度地表达中间和最终的事件探测结果，相比传统的社交媒体事件抽取方法有更强的泛化应用能力以及更高的精确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息查询与检索领域，尤其涉及一种基于社交媒体图表示模型的社会风险事件抽取的方法。
技术介绍
随着信息社会消息的传播速度大大提升，社会风险事件的舆论影响日益突出，对社会风险事件进行实时监控和社会性分析有了越来越广泛的应用需求。在网络环境下，真实世界和虚拟世界具有相互映射的便利性，用户持续并大量地汇集到网络社交平台。社交媒体的实时数据从侧面反映了现实世界事件的发展动向，对于社会风险事件的抽取与分析有着巨大的价值。现有基于互联网数据进行事件感知技术的研究主要可分为两大类，一是利用自然语言处理方法在句子级别上进行原子事件的抽取进而支持摘要的生成，如欧盟项目NewsReader，商业系统RecordedFuture；二是利用聚类方法实现文档级别的主题事件检测进而支持主题演化分析，如欧盟联合研究中心(JRC)研制的NEXUS系统。为了支持社会风险事件的多粒度感知，往往需要有机整合两大类技术，形成多阶段的处理框架，典型的有JRC后续研发的Frontex框架。这类框架一般在数据汇聚的基础上，通过语义分析、事件检测、信息融合等多个阶段实现事件的感知。传统的互联网新闻是由权威机构发布的报道性长文本，通常具备完整的新闻五要素，在组织结构上有比较固定的表达，而且长文本本身自带丰富的上下文信息。相比之下，社交媒体上的数据是海量、冗杂且缺乏组织的短文本，并常常伴随着新词语的大量出现、词义嬗变、词语拼写错误以及句子语法不符合规范等情况。同时，社交媒体中发表的内容也不具备传统新闻媒体的严谨性，在进行事件抽取时，判断结果的正确性尤其重要。上述的这些特点为基于社交媒体的社会风...

【技术保护点】
一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于包括如下步骤：1)采用HCCG模型对事件建模，定义实体关系生成规则，刻画事件属性，利用词级别与流级别的上下文对事件进行多粒度抽取；2)根据被抽取事件的HCCG图，利用最大公共子图和最小公共超图的信息量之比进行相似度计算；3)通过社交媒体的上下文信息对HCCG进行增量式聚类，在聚类过程中逐渐突出新闻的事件要素；4)通过基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件。

【技术特征摘要】
1.一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于包括如下步骤：1)采用HCCG模型对事件建模，定义实体关系生成规则，刻画事件属性，利用词级别与流级别的上下文对事件进行多粒度抽取；2)根据被抽取事件的HCCG图，利用最大公共子图和最小公共超图的信息量之比进行相似度计算；3)通过社交媒体的上下文信息对HCCG进行增量式聚类，在聚类过程中逐渐突出新闻的事件要素；4)通过基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件。2.根据权利要求1所述的一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于，所述的步骤1)具体为：1)使用HCCG模型对事件建模，HCCG表示为一个无向有权图，图中的节点代表社交媒体文本中出现的实体；图中的边对应在统一文本中以邻近次序出现、语义上相关联的两个实体之间的联系，模型中将节点分为六类，分别是灾难中心，参与者，地点，事件，动作和普通实体，前五类实体作为关键节点，以灾难中心节点为中心紧密围绕，普通实体分布在离灾难中心较远的位置，实体距离的远近由边权重刻画，权重越高，实体距离越近；2)HCCG是无向有权图，因为每个实体之间的语义关联强弱并不相同，对于某社交媒体文本转化而来的图G＝(V，E)，定义关联边e∈E的权重weight(e)由三部分的权重计算组成，分别为：基本权重bw(e)、第二部分的权重kw(ei，j)、第三部分的权值scw(ei，j)；基本权重bw(e)即反应了两实体在原文中的距离，有如下公式： b w ( e i , j ) = 1 d i s tan c e ( v i , v j ) , v i , v j ∈ V - - - ( 1 ) ]]>对distance(vi，vj)的定义即为两个实体之间间隔的分词数加一；第二部分的权重kw(ei，j)由判定关键要素得来，如果构成e的两个节点vi,vj属于时间，参与者，动作，地点要素中的一项，这条关连边e有额外的权值分； K v a l ( v ) = 1 , i f v i s a k e y v e c t o r 0 , o t h e r w i s e - - - ( 2 ) ]]>累加两端节点的关键要素判定分得到kw(ei，j)，如公式(3)所示；kw(ei，j)＝∑k∈i，jKval(vk)，vk∈V (3)第三部分的权值scw(ei，j)来自两级上下文，反应了该实体对在灾难事件中有持续的关注度，运用信号处理中的方法检测本文流中的关联实体在统计上的脉冲，将在一天内出现脉冲的实体对作为局部上下文信息，将在一个月内持续出现脉冲的实体对作为全局上下文信息，对于社交媒体文本解析的实体对，查看其是否是全局或局部上下文信息，如果是则额外增加权重s，如公式(4)所示， s c w ( e i , j ) = s , i f e i , j ...

【专利技术属性】
技术研发人员：凌立刚，朱海鹏，
申请(专利权)人：杭州量知数据科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人