The invention discloses a construction method of knowledge map based on the public opinion hot events, belongs to the field of Natural Language Processing; the first real-time access to micro-blog text, to deal with each micro-blog text, constructing text clusters, each cluster computing text belongs to the topic category by category, general don't hot events in each cluster, multidimensional attribute statistics for each event the identification of important people and institutions; participate in the discussion of hot events, and obtain the multidimensional attributes important people and institutions; finally build a multi-dimensional attribute system and relationship between types of events, characters, mechanism, characters and events, to institutions for entities, relationships between events, characters, mechanism for relevance, build public opinion knowledge map. The invention can depict hot events, characters and institutions from multiple dimensions, realize the omnidirectional analysis of hot events, personas and institutions, and set weights of different topic categories according to actual needs, so as to achieve the construction of public opinion knowledge maps of different topics.
【技术实现步骤摘要】
一种基于热点事件的舆情知识图谱构建方法
本专利技术属于自然语言处理领域,涉及一种知识图谱构建技术,具体是一种基于热点事件的舆情知识图谱构建方法。
技术介绍
近年来,随着互联网技术的飞速发展,社会化媒体已经成为人们生活中必不可少的部分;社会化媒体中被使用范围最广的就是微博平台。一些重要媒体(如人民网、新华网)通过微博平台发布热点新闻和报道,人们可以通过微博平台发表对热点新闻和报道的看法;这些看法对新闻报道的主体有非常重要的研究价值。例如,一条关于某企业高管集体离职的新闻,人们会对这条新闻进行评论和转发,发表自己对该新闻的意见和看法。分析这些意见和看法对维护企业形象、制定危机公关策略提供重要的参考依据。但是,由于微博平台每天会产生亿级的文本信息,而且信息之间存在多种关联关系,所以仅仅依靠传统的数据挖掘技术,无法揭示出信息之间的关联关系,因此,需要一种既能从大量文本中挖掘出有价值信息,又能揭示信息之间关联关系的技术,来实现对社会化媒体的舆论分析。
技术实现思路
本专利技术为了实现对社交网络热点事件的主体:事件、人物和机构之间关系的快速梳理,提出了一种基于热点事件的舆情知识图 ...
【技术保护点】
一种基于热点事件的舆情知识图谱构建方法,其特征在于,具体步骤如下:步骤一、从新浪微博中挑选具有权威性和时效性的微博媒体账号,并利用网络爬虫技术,获取对应的微博文本;步骤二、将每条微博文本进行分词,去掉文本中的停用词后,进行n‑gram处理,将每条微博转换成若干词语集合;每个集合中包括从起始词语开始,连续出现的n个词语;起始词语根据集合不同而不同,第i个集合的起始词语是原文本中第i个词语;步骤三、利用Shingling算法计算任意两条微博文本之间的相似度,并将相似度大于阈值E的所有微博文本放入同一个文本簇;步骤四、利用话题词典,对每个文本簇进行话题分类,并计算各文本簇属于的话 ...
【技术特征摘要】
1.一种基于热点事件的舆情知识图谱构建方法,其特征在于,具体步骤如下:步骤一、从新浪微博中挑选具有权威性和时效性的微博媒体账号,并利用网络爬虫技术,获取对应的微博文本;步骤二、将每条微博文本进行分词,去掉文本中的停用词后,进行n-gram处理,将每条微博转换成若干词语集合;每个集合中包括从起始词语开始,连续出现的n个词语;起始词语根据集合不同而不同,第i个集合的起始词语是原文本中第i个词语;步骤三、利用Shingling算法计算任意两条微博文本之间的相似度,并将相似度大于阈值E的所有微博文本放入同一个文本簇;步骤四、利用话题词典,对每个文本簇进行话题分类,并计算各文本簇属于的话题类别;对于第Z个文本簇,计算该文本簇的话题类别Label(Z)公式如下:其中,n表示话题类别的数量;Ti表示第i类话题中特征词的集合,特征词来源于话题词典;count(Z,Ti)表示第i类话题在第Z个文本簇中出现的特征词的数量;步骤五、针对每个文本簇,指定该文本簇的话题类别所对应的权重,统计每条文本的转发数和评论数,并计算该文本簇的影响力;影响力计算公式如下:WI(Z)=w(Label(Z))×(retweet(Z)+comment(Z))其中,w(Label(Z))表示第Z个文本簇的话题类别所对应的权重,retweet(Z)表示第Z个文本簇里所有微博文本的转发数之和,comment(Z)表示第Z个文本簇里所有微博文本的评论数之和;步骤六、对所有文本簇按照影响力的大小降序排列,针对前K个文本簇,分别选择每个文本簇的微博热点事件;热点事件是指每个文本簇中转发数和评论数之和最大的微博文本;步骤七、统计前K个文本簇中每个微博热点事件的多维属性;多维属性包括:基本属性、时空属性、情绪属性、网络属性和语义属性;步骤八、针对每个热点事件,分别统计参与讨论的重要人物和机构,并获取各人物和机构的多维属性;人物的多维属性包括基本信息、影响力信息、情绪信息、活动信息、社交信息和偏好信息;机构的多维属性包括基本信息、影响力信息、情绪信息、社交信息和偏好信息;步骤九、根据每个热点事件的多维属性,对应的人物和机构的多维属性,分别计算该热点事件与人物和机构之间的关系;关系如下表所示:关联类型关系名称事件-事件主题关联人物-人物交互、自述关联、ip关联机构-机构交互、业务关联人物-事件舆论参与机构-事件舆论参与人物-机构交互、业务关联步骤十、基于每个热点事件,对应的人物和机构,以及三者之间的关系,构建网络图形成舆情知识图谱;网络图中的节点为:热点事件、人物或机构;边为热点事件、人物和机构之间的关系;节点属性是事件、人物或机构的属性。2.如权利要求1所述的一种基于热点事件的舆情知识图谱构建方法,其特征在于,步骤三中,所述的Shingling算法具体为:利用Shingling算法计算微博A和微博B的相似度r(A,B),公式如下:S(A)表示微博A的若干词语集合,|S(A)∩S(B)|表示S(A)和S(B)的交集中包含的词语集合数量,|S(A)∪S(B)|表示S(A)和S(B)的并集中包含的词语集合数量。3.如权利要求1所述的一种基于热点事...
【专利技术属性】
技术研发人员:刘春阳,王卿,王萌,赵志云,张旭,苗琳,吴俊杰,袁石,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。