舆情事件实体的分析方法及装置制造方法及图纸

技术编号:15895234 阅读:37 留言:0更新日期:2017-07-28 19:46
本发明专利技术公开了一种舆情事件实体的分析方法及装置,涉及互联网技术领域,目的在于解决舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式的问题。本发明专利技术的技术方案包括:获取信息集合,并对信息集合进行分词;提取分词后的信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数;根据共同提及次数确定人物实体与机构实体之间的关联关系;根据人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。本发明专利技术应用于监控舆情事件的过程中。

Method and device for analyzing public opinion event entity

Analysis method and device of the invention discloses a public opinion event entity, relates to the technical field of the Internet, the purpose is to solve the public opinion monitoring system can accurately analyze the public opinion events involved in people and institutions, the cause of the user can not produce accurate positioning of the public opinion monitoring system of public opinion events, leading to not timely determine the best way to lead the problem of public opinion events. The method includes: obtaining information collection, information collection and segmentation of the characters in the collection; entity extraction after word segmentation information and entity; statistics were co - mention number, character entity mention times and entity mentions; according to the relationship between the number of identified common mentioned character entities and entities determined; according to the relationship between character entity mention times and / or entity between the number mentioned, character entities and entity of public opinion event entities and relations. The invention is applied to monitor public opinion events.

【技术实现步骤摘要】
舆情事件实体的分析方法及装置
本专利技术涉及互联网
,特别是涉及一种舆情事件实体的分析方法及装置。
技术介绍
舆情是舆论情况的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。在实际应用中,常通过舆情监控系统对舆情进行监控。舆情监控系统对舆情进行监控的具体过程如下:获取互联网海量信息,对该海量信息进行分类聚类、按词通计、专题聚焦等操作,形成简报、报告、图表等分析结果;实现用户的互联网舆情监测和新闻专题追踪等信息需求,为用户全面掌握网民的思想动态,做出正确舆论引导,提供分析依据。目前,舆情监控系统在对舆情进行分析时,能够分析出该舆情属于什么事件、该舆情事件的发展趋势、该舆情事件涉及的地域等信息,少数舆情监控系统还能分析出网民对该舆情事件所持有的态度;而人物和机构绝大多数情况下是舆情事件产生的主体,但是,舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式。
技术实现思路
有鉴于此,本专利技术提供的一种舆情事件实体的分析方法及装置,主要目的在于解决舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式的问题。为了解决上述问题,本专利技术主要提供如下技术方案:一方面,本专利技术提供了一种舆情事件实体的分析方法,该方法包括:获取信息集合,并对所述信息集合进行分词;所述信息集合由N个句子组成,其中,N为大于0的整数;提取分词后的所述信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及人物实体与机构实体的次数;根据所述共同提及次数确定所述人物实体与机构实体之间的关联关系;根据所述人物实体提及次数和/或所述机构实体提及次数、所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。另一方面,本专利技术还提供一种舆情事件实体的分析装置,该装置包括:第一获取单元,用于获取信息集合;所述信息集合由N个句子组成,其中,N为大于0的整数;分词单元,用于对所述第一获取单元获取的所述信息集合进行分词;提取单元,用于提取所述分词单元分词后的所述信息集合中的人物实体及机构实体;统计单元,用于分别统计所述提取单元提取的共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及所述人物实体与机构实体的次数;第一确定单元,用于根据所述统计单元统计的所述共同提及次数确定所述人物实体与机构实体之间的关联关系;第二确定单元,用于根据所述统计单元统计的所述人物实体提及次数和/或所述机构实体提及次数、所述第一确定单元确定的所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。借由上述技术方案,本专利技术提供的技术方案至少具有下列优点:本专利技术提供的舆情事件实体的分析方法及装置,获取信息集合,并对该信息集合进行分词,该信息集合由N个句子组成,其中,N为大于0的整数;提取分词后的信息集合中的人物实体及机构实体,分别统计共同提及次数、人物实体提及次数及机构实体提及次数,该共同提及次数为在同一句子中共同提及人物实体及机构实体的次数;根据该共同提及次数确定人物实体与机构实体之间的关联关系,根据该人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系;本专利技术能够通过对信息集合的分析,准确定位舆情事件相关的实体及实体关系,不仅能够追溯舆情事件产生的原因,而且还能够准确的确定舆情事件的实体关系,能够及时确定解决该舆情事件的最佳引导方式。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种舆情事件实体的分析方法的流程图;图2示出了本专利技术实施例提供的一种舆情事件实体的分析装置的组成框图;图3示出了本专利技术实施例提供的另一种舆情事件实体的分析装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供一种舆情事件实体的分析方法,如图1所示,该方法包括:101、获取信息集合,并对所述信息集合进行分词。在对舆情事件实体进行分析之前,首先,需要从互联网上获取信息集合,该些信息集合由N个句子组成,其中,N为大于0的整数;所述信息集合可能来源与同一网站的信息;也可能是来自不同网站的信息。需要说明的是,在获取信息集合时,需要根据对舆情事件的实际需求去获取信息集合,例如,若用户是某旅游公司,其在获取信息集合时,需要获取与旅游相关的信息集合;若用户是某政府,其在获取信息集合时,需要获取与时事政治有关的信息集合,而不会获取娱乐、财经等方面的信息集合。本专利技术实施例对信息集合的具体内容不进行限定。在获取信息集合之后,对获取的信息集合进行分词,其目的在于,将组成句子的各种词语进行分割,分词确定的各种词语被步骤103所使用。本专利技术实施例中,对信息集合中的每个句子进行拆分解析,确定句子的句子结构。在对获取的信息集合进行分词时,首先,获取预设实时词表,该预设实时词表是基于机器学习所确定的实时词表,且该预设实时词表是实时更新,例如,一些新兴网络用语的实时更新等等;基于该预设实时词表对获取的信息集合进行分词,能够确保对信息集合分词的准确性。102、提取分词后的所述信息集合中的人物实体及机构实体。信息集合中的同一个句子中可能只包含人物实体、也可能只包含机构实体;还可能同时包含人物实体与机构实体;将信息集合中包含的所有人物实体及机构实体进行提取。示例性的,同一个句子中只包含人物实体,如,“某某明星的成长之路”;同一个句子中同时包含人物实体及机构实体,如,“老年人跟团玩,看看该选哪家旅行社”等等,本专利技术实施例对信息集合中包含的具体内容不进行限定。在实际操作时,相对于汉语的语法特点,人物实体和机构实体一般会作为整个句子的主语或者宾语,少数情况下,会作为句子的定语,因此,在提取人物实体及机构实体时,将句子的主语组成词语、宾语组成词语以及定语组成词语进行提取;此外,人物实体和机构实体的名称与信息集合中的其他词语相比,有其一定的特点,例如:人物实体的名称一般由两个字到三个字或者四个字组成,其中,包括姓本文档来自技高网...
舆情事件实体的分析方法及装置

【技术保护点】
一种舆情事件实体的分析方法,其特征在于,包括:获取信息集合,并对所述信息集合进行分词;所述信息集合由N个句子组成,其中,N为大于0的整数;提取分词后的所述信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及人物实体与机构实体的次数;根据所述共同提及次数确定所述人物实体与机构实体之间的关联关系;根据所述人物实体提及次数和/或所述机构实体提及次数、所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。

【技术特征摘要】
1.一种舆情事件实体的分析方法,其特征在于,包括:获取信息集合,并对所述信息集合进行分词;所述信息集合由N个句子组成,其中,N为大于0的整数;提取分词后的所述信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及人物实体与机构实体的次数;根据所述共同提及次数确定所述人物实体与机构实体之间的关联关系;根据所述人物实体提及次数和/或所述机构实体提及次数、所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。2.根据权利要求1所述的方法,其特征在于,根据所述共同提及次数确定人物实体与机构实体之间的关联关系包括:获取各人物实体与机构实体对应的共同提及次数,并对所述共同提及次数进行降序排列;确定所述共同提及次数最多的人物实体与机构实体,并确定所述人物实体与机构实体之间的关联关系。3.根据权利要求2所述的方法,其特征在于,根据所述人物实体提及次数和/或所述机构实体提及次数、所述人物实体与机构实体之间的关联关系确定舆情事件的实体及实体关系包括:获取所述人物实体提及次数及机构实体提及次数,并分别对所述人物实体提及次数及机构实体提及次数进行降序排列;确定第一最大值与第二最大值,并将所述第一最大值与所述第二最大值进行比对;其中,所述第一最大值为所述人物实体提及次数的最大值,所述第二最大值为所述机构实体提及次数的最大值;若所述第一最大值大于或者等于所述第二最大值,则根据所述第一最大值对应的所述人物实体确定所述人物实体与机构实体之间的关联关系;将所述人物实体确定为所述舆情事件实体,将确定的所述人物实体与机构实体之间的关联关系确定为所述舆情事件的实体关系。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述第一最大值小于所述第二最大值,则根据所述第二最大值对应的所述机构实体确定所述人物实体与机构实体之间的关联关系;将所述机构实体确定为所述舆情事件实体,将确定的所述人物实体与机构实体之间的关联关系确定为所述舆情事件的实体关系。5.根据权利要求1-4中任一项所述的方法,其特征在于,在提取分词后的所述信息集合中的人物实体及机构实体之后,所述方法还包括:获取预设人物机构数据库;所述预设人物机构数据库用于存储人物实体及机构实体;基于所述预设人物机构数据库对提取的人物实体及机构实体进行校验。6.一种舆情事件实体的分析装置,其特征在于,包括:第一获取单元,用于获取信息集合;所述信息集合由N个句子组成,其中,N为大于0的整数;分词单元,用于对所述第一获取单元获取的所述信息集合进行分词;提取单元,用于提取所述分词单元分词后的所述信息集合中的人物实体及机构实体;统计单元,用于分别统计所述提取单元提...

【专利技术属性】
技术研发人员:冯鸳鹤
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1