【技术实现步骤摘要】
舆情分析方法、装置、电子设备及可读存储介质
本申请实施例涉及大数据
,尤其涉及一种舆情分析方法、装置、电子设备及可读存储介质。
技术介绍
目前,互联网已经成为人们日常生活中不可或缺的一部分,用户可以在互联网上发表观点、传播看法。企业等可以通过对互联网进行舆情监测和分析来获知大众对于产品、事件的舆论看法。舆情分析可以基于舆情系统来完成。舆情系统利用爬虫从互联网采集文档集合,并利用分析关键词从文档集合中召回相关文档,在此基础上进行情感分析、事件聚类等舆论分析。其中,舆情监测和分析中的一项重要内容是对爬虫采集到的文档与用户设置的分析关键词进行相关性计算,以根据相关性从爬虫采集的文档集合中召回相关文档。现有技术中,可以使用字符串匹配方式或基于语义的匹配方式计算分析关键词与文档的相关性。其中,字符串匹配方式例如可以是根据关键词在文档中出现的次数计算相关性,或者是使用词频-逆向文件频率(TermFrequency–InverseDocumentFrequency,简称TF-IDF)计算分析关键词与文档相关性得分。基于语义的匹配方式 ...
【技术保护点】
1.一种舆情分析方法,其特征在于,包括:/n接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词;/n根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档,所述相关性结果由相关性预测模型使用相关性特征预测得到,所述相关性特征基于所述分析关键词与每个文档预先得到;/n对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果;/n向所述终端设备发送所述针对所述分析关键词的舆情分析结果。/n
【技术特征摘要】
1.一种舆情分析方法,其特征在于,包括:
接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词;
根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档,所述相关性结果由相关性预测模型使用相关性特征预测得到,所述相关性特征基于所述分析关键词与每个文档预先得到;
对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果;
向所述终端设备发送所述针对所述分析关键词的舆情分析结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档之前,还包括:
提取所述分析关键词与第一文档的相关性特征,所述第一文档为所述目标文档集合中的任一文档;
将所述相关性特征输入所述相关性预测模型中,得到由所述相关性预测模型预测的所述分析关键词与所述第一文档的相关性结果。
3.根据权利要求2所述的方法,其特征在于,所述分析关键词与第一文档的相关性特征用于表征如下至少一项信息:
所述分析关键词在所述第一文档中出现的位置、所述分析关键词在所述第一文档中的位置是否为列表、所述分析关键词在所述第一文档中出现的次数、所述分析关键词在所述第一文档中首次出现的位置、所述分析关键词与所述第一文档的字符串匹配得分。
4.根据权利要求3所述的方法,其特征在于,若所述分析关键词的数量为多个,则所述相关性特征还用于表征如下至少一项信息:
多个分析关键词中各分析关键词在所述第一文档中出现的最小间隔字数、多个分析关键词中各分析关键词在所述第一文档中出现次数的比值。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述相关性结果由相关性预测模型使用相关性特征预测得到,包括:
所述相关性结果由相关性预测模型使用相关性特征以及文档内容特征预测得到,所述文档内容特征基于每个文档得到。
6.根据权利要求5所述的方法,其特征在于,所述将所述相关性特征输入所述相关性预测模型中,得到由所述相关性预测模型预测的所述分析关键词与所述第一文档的相关性结果,包括:
将所述相关性特征以及所述第一文档的文档内容特征输入所述相关性预测模型中,得到由所述相关性预测模型预测的所述分析关键词与所述第一文档的相关性结果。
7.根据权利要求5或6所述的方法,其...
【专利技术属性】
技术研发人员:付琰,陈亮辉,彭炼钢,杨胜文,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。