基于微博平台的事件关键人物提取方法技术

技术编号:28037362 阅读:23 留言:0更新日期:2021-04-09 23:19
本发明专利技术涉及一种基于微博平台的事件关键人物提取方法。本发明专利技术的目的是提供一种基于微博平台的事件关键人物提取方法。本发明专利技术的技术方案是:一种基于微博平台的事件关键人物提取方法,其特征在于:所述事件关键人物包括事件中的关键人名,以及事件传播过程中的关键微博用户和信息源头用户,所述关键微博用户包括重要传播用户、事件发展节点用户、公众指向用户。本发明专利技术适用于信息抽取技术领域。

【技术实现步骤摘要】
基于微博平台的事件关键人物提取方法
本专利技术涉及一种基于微博平台的事件关键人物提取方法。适用于信息抽取

技术介绍
随着WEB2.0技术的快速发展,普通用户已经成为互联网上内容的主要生产者,UGC(UserGeneratedContent)具有反应及时,传播快的特点。作为UGC的典型代表,微博平台凭借进入门槛低、数据量大、分享自由及时,形式多元化等优势,已成为重要的事件来源和网络舆论场所,基于微博平台进行事件分析的相关条件已经具备,而人物作为事件的重要主体,其提取的准确和全面与否在很大程度上影响了事件分析的准确性和全面性。现有基于微博的信息抽取技术主要集中在针对微博用户及社交圈的抓取,不能有效考虑用户及人物在事件中的角色和作用,难于实现提取事件中关键人物的目标。
技术实现思路
本专利技术要解决的技术问题是:针对上述存在的问题,提供一种基于微博平台的事件关键人物提取方法。本专利技术所采用的技术方案是:一种基于微博平台的事件关键人物提取方法,其特征在于:所述事件关键人物包括事件中的关键人名,以及事件传播过程中的关键微博用户和信息源头用户,所述关键微博用户包括重要传播用户、事件发展节点用户、公众指向用户。所述事件中的关键人名的提取方法,包括:获取事件微博;对事件微博进行人名识别和歧义人名修正,获取事件中的关键人名。所述对事件微博进行人名识别和歧义人名修正,包括:利用分词工具对事件涉及的微博数据进行分词和词性标注,选取其中的人名,并将每个人名在整个事件微博中出现的次数作为其权重;对选取的人名,如果出现在先验概率词典中,则以对应的先验概率调整其权重;对调整权重后的人名,依照权重大小排序,选择前k个作为事件中的关键人名;所述先验概率词典的生成方法如下:通过利用分词工具对大规模微博语料进行分词和词性标注处理;统计所有歧义词项出现次数和被标注为人名的次数;用标注为人名的次数除以出现次数作为该歧义词作为人名的先验概率,生成歧义人名的先验概率词典。所述重要传播用户的提取方法,包括:获取事件微博;获取该事件传播过程中传播热度较高微博对应的作者作为重要传播用户;所述微博传播热度hot(wi)的计算公式如下:其中For(wi)为微博wi的转发量,Com(wi)为微博wi的评论量,Fan(ui)为wi对应用户ui的粉丝量。所述事件发展节点用户的提取方法,包括:使用single-pass聚类算法按照时间先后顺序对事件涉及的微博进行聚类,并将每个类看作事件发展的一个阶段或一个观点,在每个类中选取热度最高的微博对应的用户为当前事件发展节点的用户代表,作为事件发展节点用户。所述公众指向用户的提取方法,包括:获取事件涉及微博中被公众用户通知频率最高的用户,作为公众指向用户。所述信息源头用户的提取方法,包括:获取事件微博;基于事件涉及微博发布的时间戳,获取发布时间较早的事件涉及微博;根据微博转发量和评论量阈值过滤掉发布时间较早的事件涉及微博中转发量和评论量较少的微博,将过滤后剩余的事件涉及微博用户作为信息源头用户。一种基于微博平台的事件关键人物提取系统,其特征在于,所述事件关键人物包括事件中的关键人名,以及事件传播过程中的关键微博用户和信息源头用户,所述关键微博用户包括重要传播用户、事件发展节点用户、公众指向用户;该系统包括:关键人名提取模块,用于对事件微博进行人名识别和歧义人名修正,获取事件中的关键人名;重要传播用户提取模块,用于获取该事件传播过程中传播热度较高微博对应的作者作为重要传播用户;事件发展节点用户提取模块,用于使用single-pass聚类算法按照时间先后顺序对事件涉及的微博进行聚类,并将每个类看作事件发展的一个阶段或一个观点,在每个类中选取热度最高的微博对应的用户为当前事件发展节点的用户代表,作为事件发展节点用户;公众指向用户提取模块,用于获取事件涉及微博中被公众用户通知频率最高的用户,作为公众指向用户;信息源头用户提取模块,用于基于事件涉及微博发布的时间戳,获取发布时间较早的事件涉及微博;根据微博转发量和评论量阈值过滤掉发布时间较早的事件涉及微博中转发量和评论量较少的微博,将过滤后剩余的事件涉及微博用户作为信息源头用户。一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于微博平台的事件关键人物提取方法的步骤。一种基于微博平台的事件关键人物提取设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于微博平台的事件关键人物提取方法的步骤。本专利技术的有益效果是:本专利技术将通过有效考虑用户及人物在事件中的角色和作用,确定事件中的关键人名,以及事件传播过程中的关键微博用户和信息源头用户为事件关键人物。本专利技术利用已有的分词工具获取人名,通过大规模预料建立歧义人名概率词典调整歧义人名权重,过滤错误识别的人名。微博用户作为事件的参与者、传播者、意见提出者,对事件脉络的发展有重要推动作用,定位到推动事件发展的关键用户,对事件分析有重要意义。本专利技术根据微博平台特点,将关键用户分为三类,分别为:重要传播用户、事件发展节点用户、公众指向用户,并对三类用户进行发掘。信息源头用户是指首先在微博平台提出事件相关信息并得到其他用户评论和转发的微博用户,本专利技术通过微博发布时间以及微博转发量和评论量规则,定位信息源头用户。附图说明图1为实施例的流程图。图2为实施例中关键人名提取的流程图。具体实施方式本实施例为一种基于微博平台的事件关键人物提取方法,事件关键人物包括事件中的关键人名,以及事件传播过程中的关键微博用户和信息源头用户。本实施例中事件中关键人名的提取方法,包括:获取事件微博;对事件微博进行人名识别和歧义人名修正,获取事件中的关键人名。本例中人名识别和歧义人名修正,包括以下步骤:A、一个事件中频繁出现的人名很有可能就是事件的主人公,利用现有分词工具对事件涉及的微博数据进行分词和词性标注,选取其中的人名,并将每个人名在整个事件微博中出现的次数作为其权重,一个人名出现次数越多,他是事件主人公的可能性越大;B、词性标注常遇到的一个问题是歧义词的处理,比如“博文”一次,可以作为一个人名出现,也可以作为名词表达微博的意思,尽管分词工具本身提供根据上下文判断歧义词词性的功能,但在实际使用中发现,对于微博这样格式松散的短文本,单纯依赖分词工具进行歧义词的处理不能满足需求。本实施例通过利用分词工具对大规模微博语料进行分词和词性标注处理,统计所有歧义词项出现次数和被标注为人名的次数,用标注为人名的次数除以出现次数作为该歧义词作为人名的先验概率,生成歧义人名的先验概率词典。...

【技术保护点】
1.一种基于微博平台的事件关键人物提取方法,其特征在于:所述事件关键人物包括事件中的关键人名,以及事件传播过程中的关键微博用户和信息源头用户,所述关键微博用户包括重要传播用户、事件发展节点用户、公众指向用户。/n

【技术特征摘要】
1.一种基于微博平台的事件关键人物提取方法,其特征在于:所述事件关键人物包括事件中的关键人名,以及事件传播过程中的关键微博用户和信息源头用户,所述关键微博用户包括重要传播用户、事件发展节点用户、公众指向用户。


2.根据要求要求1所述的基于微博平台的事件关键人物提取方法,其特征在于,所述事件中的关键人名的提取方法,包括:
获取事件微博;
对事件微博进行人名识别和歧义人名修正,获取事件中的关键人名。


3.根据权利要求2所述的基于微博平台的事件关键人物提取方法,其特征在于,所述对事件微博进行人名识别和歧义人名修正,包括:
利用分词工具对事件涉及的微博数据进行分词和词性标注,选取其中的人名,并将每个人名在整个事件微博中出现的次数作为其权重;
对选取的人名,如果出现在先验概率词典中,则以对应的先验概率调整其权重;
对调整权重后的人名,依照权重大小排序,选择前k个作为事件中的关键人名;
所述先验概率词典的生成方法如下:
通过利用分词工具对大规模微博语料进行分词和词性标注处理;
统计所有歧义词项出现次数和被标注为人名的次数;
用标注为人名的次数除以出现次数作为该歧义词作为人名的先验概率,生成歧义人名的先验概率词典。


4.根据权利要求1所述的基于微博平台的事件关键人物提取方法,其特征在于,所述重要传播用户的提取方法,包括:
获取事件微博;
获取该事件传播过程中传播热度较高微博对应的作者作为重要传播用户;
所述微博传播热度hot(wi)的计算公式如下:



其中For(wi)为微博wi的转发量,Com(wi)为微博wi的评论量,Fan(ui)为wi对应用户ui的粉丝量。


5.根据权利要求1所述的基于微博平台的事件关键人物提取方法,其特征在于,所述事件发展节点用户的提取方法,包括:
使用single-pass聚类算法按照时间先后顺序对事件涉及的微博进行聚类,并将每个类看作事件发展的一个阶段或一个观点,在每个类中选取热度最高的微博对应的用户为当前事件发展节点的用户代表,作为事件发展节点用户。


6.根据权利要求1所述的基于微博平台...

【专利技术属性】
技术研发人员:曹娟谢添刘浩远徐朝喜
申请(专利权)人:中国科学院计算技术研究所数字经济产业研究院杭州中科睿鉴科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1