【技术实现步骤摘要】
一种舆情事件挖掘方法和系统
本专利技术自然语言处理领域,尤其涉及一种舆情事件挖掘方法和系统。
技术介绍
当今互联网的使用范围越来越广泛、影响愈来愈巨大,各类信息呈几何数增长,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。对政府部门、公众媒体和大型企业来说,如何加强对网络舆情事件的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。事件挖掘是信息抽取领域的重要研究,目的是从非结构化的文本中挖掘事件信息。对文本进行舆情事件挖掘,有助于用户及时获取其所关心的舆情事件,为决策提供强有力的数据支撑。当前的事件挖掘主要采用基于统计机器学习的方法,如最大熵算法,感知机算法。但是基于统计机器学习的方法需要大量的人工标注事件,如果用户需要挖掘一种新类型的事件,就需要对该类事件进行大量标注。并且事件标注语料本身同样面临着正反例不平衡以及数据稀疏的问题。另外,传统的事件挖掘是在自动分词的基础上进行的,分词的错误会直接影响下一步的结果。
技术实现思路
为解决上述技术问题,本专利技术提供了一种舆情事件挖掘方法和系统。第一方面, ...
【技术保护点】
一种舆情事件挖掘方法,其特征在于,包括以下步骤:步骤1,构建至少一个预设事件类别中每个预设事件类别对应的事件本体;步骤2,对每个事件本体进行解析,生成每个事件本体对应的规则表示;步骤3,获取待挖掘文本,根据所述每个事件本体对应的规则表示对所述待挖掘文本进行挖掘,获取所述待挖掘文本包含的至少一个目标预设事件类别。
【技术特征摘要】
1.一种舆情事件挖掘方法,其特征在于,包括以下步骤:步骤1,构建至少一个预设事件类别中每个预设事件类别对应的事件本体;步骤2,对每个事件本体进行解析,生成每个事件本体对应的规则表示;步骤3,获取待挖掘文本,根据所述每个事件本体对应的规则表示对所述待挖掘文本进行挖掘,获取所述待挖掘文本包含的至少一个目标预设事件类别。2.根据权利要求1所述的舆情事件挖掘方法,其特征在于,所述步骤1具体包括以下步骤:S101,设定至少一个备选概念,并对至少一个备选概念中每个备选概念建立对应的词表集合;S102,获取预设事件类别对应的至少一个备选概念,并设定所述至少一个备选概念中每个备选概念之间的至少一个逻辑关系,形成所述预设事件类别对应的至少一个模板;S103,建立所述预设事件类别对应的事件本体,所述事件本体包括所述预设事件类别对应的至少一个模板以及所述至少一个模板中每个模板包括的备选概念;S104,重复步骤S102~S103,直至为每个预设事件类别建立对应的事件本体。3.根据权利要求2所述的舆情事件挖掘方法,其特征在于,步骤1中,所述备选概念包括用于所有模板中的公共概念和用于特定事件类别的类别概念;所述备选概念为至少一个子概念的集合。4.根据权利要求2或3所述的舆情事件挖掘方法,其特征在于,所述步骤2具体为:对每个事件本体的模板进行解析,形成模板中每个备选概念对应的正则表达式,所述正则表达式包括所述备选概念对应的词表集合;并根据所述模板对应的逻辑关系形成每个事件本体对应的规则表示。5.根据权利要求4所述的舆情事件挖掘方法,其特征在于,所述步骤3具体为:S301,获取待挖掘文本,将所述待挖掘文本与所述正则表达式中词表集合的词表进行匹配,获取所述待挖掘文本中包含的目标概念;S302,获取与所述目标概念相匹配的目标规则表示,并根据所述目标规则表示生成对应的目标模板;S303,根据所述目标模板生成所述待挖掘文本包含的目标预设事件类别,并获取所述目标预设事件类别在所述待挖掘文本中的位置。...
【专利技术属性】
技术研发人员:姬东鸿,吕晨,
申请(专利权)人:武汉红茶数据技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。