【技术实现步骤摘要】
一种获取舆情数据的方法和装置
本专利技术涉及计算机应用
,特别涉及一种获取舆情数据的方法和装置。
技术介绍
网络舆情是以网络为载体,以事件为核心,是广大网民情感、态度、意见、观点的表达、传播与互动,是社会舆情在互联网空间的映射。随着互联网的不断发展,很多公司、企业等单位需要不断关注网络舆情,以便于对网络舆情进行分析,关注自己在网络舆情中的状态,从而可以产生网络舆情预警,为部门网络危机公关或品牌营销提供数据依靠。另外,广大网民也需要不断关注网络舆情,以便于选择放心的服务提供商或者用于金融投资选择等提供依据。然而,现有网络舆情数据的获取方式大多基于人工方式采集,例如,公司或企业等单位聘请专门收集、分析舆情数据的人员;广大网民自己留意相关新闻,等等方式。一方面这些方式耗费人力资源,另一方面获取的舆情数据的覆盖率也很低。
技术实现思路
有鉴于此,本专利技术提供了一种获取舆情数据的方法和装置,以便于自动实现舆情数据的获取,降低人力成本,提高舆情数据的覆盖率。具体技术方案如下:本专利技术提供了一种获取舆情数据的方法,预先挖掘实体词库,所述实体词库包括描述所对应实 ...
【技术保护点】
一种获取舆情数据的方法,其特征在于,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述方法包括:从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。
【技术特征摘要】
1.一种获取舆情数据的方法,其特征在于,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述方法包括:从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。2.根据权利要求1所述的方法,其特征在于,所述挖掘实体词库包括:获取被挖掘实体的权威数据;从所述权威数据中提取关键词;将所提取的关键词集合作为被挖掘实体的词库。3.根据权利要求2所述的方法,其特征在于,所述获取被挖掘实体的权威数据包括:获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。4.根据权利要求1或2所述的方法,其特征在于,所述提取关键词包括:对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。5.根据权利要求2所述的方法,其特征在于,所述挖掘实体词库还包括:对提取的关键词进行过滤处理,以及所述将所提取的关键词集合作为被挖掘实体的词库包括:将对提取的关键词进行过滤处理后的关键词集合作为被挖掘实体的词库。6.根据权利要求5所述的方法,其特征在于,对提取的关键词进行过滤处理包括以下至少之一:基于人工的方式对提取的关键词进行过滤处理;将提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;将提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。7.根据权利要求1所述的方法,其特征在于,该方法还包括:对各实体的舆情数据分别进行以下处理中的至少一种:去重;删除非法舆情数据;将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。8.根据权利要求7所述的方法,其特征在于,所述主体识别模型采用如下方式训练:将已确定主体的网页数据作为训练语料;基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。9.根据权利要求1所述的方法,其特征在于,该方法还包括:对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。10.根据权利要求1至9中任一权项所述的方法,其特征在于,所述实体包括组织机构;所述网页数据包括新闻网页。11.一种获取舆情数据的装置,其特征在于,该装置包括:词库挖掘单元和舆情获取单元;所述词库挖掘单元,用于预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述舆情获...
【专利技术属性】
技术研发人员:王私江,赵辉,高显,岳爱珍,谭静,崔燕,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。