一种获取舆情数据的方法和装置制造方法及图纸

技术编号:16969643 阅读:32 留言:0更新日期:2018-01-07 06:35
本发明专利技术提供了一种获取舆情数据的方法和装置,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;在获取舆情数据时,从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。本发明专利技术能够自动实现舆情数据的获取,相比较人工收集舆情数据的方式,大大降低了人力成本,且提高了舆情数据的覆盖率。

【技术实现步骤摘要】
一种获取舆情数据的方法和装置
本专利技术涉及计算机应用
,特别涉及一种获取舆情数据的方法和装置。
技术介绍
网络舆情是以网络为载体,以事件为核心,是广大网民情感、态度、意见、观点的表达、传播与互动,是社会舆情在互联网空间的映射。随着互联网的不断发展,很多公司、企业等单位需要不断关注网络舆情,以便于对网络舆情进行分析,关注自己在网络舆情中的状态,从而可以产生网络舆情预警,为部门网络危机公关或品牌营销提供数据依靠。另外,广大网民也需要不断关注网络舆情,以便于选择放心的服务提供商或者用于金融投资选择等提供依据。然而,现有网络舆情数据的获取方式大多基于人工方式采集,例如,公司或企业等单位聘请专门收集、分析舆情数据的人员;广大网民自己留意相关新闻,等等方式。一方面这些方式耗费人力资源,另一方面获取的舆情数据的覆盖率也很低。
技术实现思路
有鉴于此,本专利技术提供了一种获取舆情数据的方法和装置,以便于自动实现舆情数据的获取,降低人力成本,提高舆情数据的覆盖率。具体技术方案如下:本专利技术提供了一种获取舆情数据的方法,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述方法包括:从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。根据本专利技术一优选实施方式,所述挖掘实体词库包括:获取被挖掘实体的权威数据;从所述权威数据中提取关键词;将所提取的关键词集合作为被挖掘实体的词库。根据本专利技术一优选实施方式,所述获取被挖掘实体的权威数据包括:获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。根据本专利技术一优选实施方式,所述提取关键词包括:对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。根据本专利技术一优选实施方式,所述挖掘实体词库还包括:对提取的关键词进行过滤处理,以及所述将所提取的关键词集合作为被挖掘实体的词库包括:将对提取的关键词进行过滤处理后的关键词集合作为被挖掘实体的词库。根据本专利技术一优选实施方式,对提取的关键词进行过滤处理包括以下至少之一:基于人工的方式对提取的关键词进行过滤处理;将提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;将提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。根据本专利技术一优选实施方式,该方法还包括:对各实体的舆情数据分别进行以下处理中的至少一种:去重;删除非法舆情数据;将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。根据本专利技术一优选实施方式,所述主体识别模型采用如下方式训练:将已确定主体的网页数据作为训练语料;基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。根据本专利技术一优选实施方式,该方法还包括:对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。根据本专利技术一优选实施方式,所述实体包括组织机构;所述网页数据包括新闻网页。本专利技术还提供了一种获取舆情数据的装置,该装置包括:词库挖掘单元和舆情获取单元;所述词库挖掘单元,用于预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述舆情获取单元包括:第二提取子单元,用于从所获取的网页数据中提取关键词;匹配子单元,用于将所述第二提取子单元提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;第二确定子单元,用于将所述网页数据作为所述匹配子单元确定出实体的舆情数据。根据本专利技术一优选实施方式,所述词库挖掘单元包括:第一获取子单元,用于获取被挖掘实体的权威数据;第一提取子单元,用于从所述权威数据中提取关键词;第一确定子单元,用于将所述第一提取子单元提取的关键词集合作为被挖掘实体的词库。根据本专利技术一优选实施方式,所述第一获取子单元,具体用于获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。根据本专利技术一优选实施方式,所述第二提取子单元具体用于:对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。根据本专利技术一优选实施方式,所述词库挖掘单元还包括:第一过滤子单元,用于对所述第一提取子单元提取的关键词进行过滤处理,并提供给所述第一确定子单元以得到所述被挖掘实体的词库。根据本专利技术一优选实施方式,所述第一过滤子单元执行以下至少一种过滤处理:基于人工的方式对提取的关键词进行过滤处理;将所述第一提取子单元提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;将所述第一提取子单元提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。根据本专利技术一优选实施方式,所述舆情获取单元还包括:第二过滤子单元,用于对各实体的舆情数据分别进行以下处理中的至少一种:去重;删除非法舆情数据;将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。根据本专利技术一优选实施方式,该装置还包括:模型训练单元,用于将已确定主体的网页数据作为训练语料;基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。根据本专利技术一优选实施方式,该装置还包括:情感分析单元,用于对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。根据本专利技术一优选实施方式,所述舆情获取单元包括还包括:第二获取子单元,用于获取网页数据。由以上技术方案可以看出,本专利技术通过将从网页数据中提取的关键词与预先挖掘的各实体词库进行相似度匹配,从而确定该网页数据是否为某实体词的舆情数据。这种方式能够自动实现舆情数据的获取,相比较人工收集舆情数据的方式,大大降低了人力成本,且提高了舆情数据的覆盖率。【附图说明】图1为本专利技术实施例提供的实体词库挖掘阶段的方法流程图;图2为本专利技术实施例提供的舆情数据获取阶段的方法流程图;图3为本专利技术实施例提供的装置结构图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”本文档来自技高网...
一种获取舆情数据的方法和装置

【技术保护点】
一种获取舆情数据的方法,其特征在于,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述方法包括:从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。

【技术特征摘要】
1.一种获取舆情数据的方法,其特征在于,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述方法包括:从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。2.根据权利要求1所述的方法,其特征在于,所述挖掘实体词库包括:获取被挖掘实体的权威数据;从所述权威数据中提取关键词;将所提取的关键词集合作为被挖掘实体的词库。3.根据权利要求2所述的方法,其特征在于,所述获取被挖掘实体的权威数据包括:获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。4.根据权利要求1或2所述的方法,其特征在于,所述提取关键词包括:对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。5.根据权利要求2所述的方法,其特征在于,所述挖掘实体词库还包括:对提取的关键词进行过滤处理,以及所述将所提取的关键词集合作为被挖掘实体的词库包括:将对提取的关键词进行过滤处理后的关键词集合作为被挖掘实体的词库。6.根据权利要求5所述的方法,其特征在于,对提取的关键词进行过滤处理包括以下至少之一:基于人工的方式对提取的关键词进行过滤处理;将提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;将提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。7.根据权利要求1所述的方法,其特征在于,该方法还包括:对各实体的舆情数据分别进行以下处理中的至少一种:去重;删除非法舆情数据;将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。8.根据权利要求7所述的方法,其特征在于,所述主体识别模型采用如下方式训练:将已确定主体的网页数据作为训练语料;基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。9.根据权利要求1所述的方法,其特征在于,该方法还包括:对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。10.根据权利要求1至9中任一权项所述的方法,其特征在于,所述实体包括组织机构;所述网页数据包括新闻网页。11.一种获取舆情数据的装置,其特征在于,该装置包括:词库挖掘单元和舆情获取单元;所述词库挖掘单元,用于预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述舆情获...

【专利技术属性】
技术研发人员:王私江赵辉高显岳爱珍谭静崔燕
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1