舆论信息爬取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21771824 阅读:44 留言:0更新日期:2019-08-03 21:36
本发明专利技术公开了舆论信息爬取方法、装置、计算机设备及存储介质。该方法包括:将待爬取的用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过定向爬虫集合从预设的网址清单中爬取与各用户对应的用户舆情信息,以得到用户舆情信息集合;对用户舆情信息集合中每一用户舆情信息进行关键词提取,得到对应的关键词列表;将每一用户舆情信息对应的关键词列表与对应的用户唯一身份识别信息进行封装,以得到与每一用户对应的处理后数据;将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到对应目标用户的舆情评分值。该方法实现了自动化高效爬取指定用户的舆情信息,而且能获取其对应的舆情评分值。

Public opinion information crawling methods, devices, computer equipment and storage media

【技术实现步骤摘要】
舆论信息爬取方法、装置、计算机设备及存储介质
本专利技术涉及数据爬取领域,尤其涉及一种舆论信息爬取方法、装置、计算机设备及存储介质。
技术介绍
目前,针对用户进行信用分析时,除了获取用户的金融逾期信息、个人犯罪信息等进行分析,还能获取该用户的舆情信息。目前的舆情信息往往通过接口形式获取,不具备实时性,并不能快速的爬取指定用户的舆情信息。
技术实现思路
本专利技术实施例提供了一种舆论信息爬取方法、装置、计算机设备及存储介质,旨在解决现有技术中通过接口形式获取用户的舆情信息,导致不能快速的爬取指定用户的舆情信息的问题。第一方面,本专利技术实施例提供了一种舆论信息爬取方法,其包括:接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别本文档来自技高网...

【技术保护点】
1.一种舆论信息爬取方法,其特征在于,包括:接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;通过词频‑逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理...

【技术特征摘要】
1.一种舆论信息爬取方法,其特征在于,包括:接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过所述定向爬虫集合从预设的网址清单中爬取与所述用户清单中每一用户对应的用户舆情信息,以得到用户舆情信息集合;通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表;将每一用户舆情信息对应的关键词列表与所述用户清单中对应用户的用户唯一身份识别信息进行封装,以得到与所述用户清单中每一用户对应的处理后数据;以及将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值。2.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情评分值之后,还包括:若所述目标用户的舆情评分值超出预先设置的评分阈值,将所述目标用户设置非优质客户的标识。3.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述通过词频-逆文本频率指数模型对所述用户舆情信息集合中每一用户舆情信息进行关键词提取,得到与每一用户舆情信息对应的关键词列表,包括:将所述用户舆情信息集合中各用户舆情信息进行分词,得到各用户舆情信息对应的分词结果;计算各分词结果中每一分词的词频;计算各分词结果中每一分词的逆文档频率;根据词频-逆文本频率指数=词频*逆文档频率,计算各分词结果中每一分词对应的词频-逆文本频率指数;将各分词结果中以每一个分词结果为一组分词结果,将每一组分词结果中每一分词对应的词频-逆文本频率指数按降序排序,获取组内排名位于预设的排名阈值之前的词频-逆文本频率指数对应的分词,以组成与各用户舆情信息对应的关键词列表。4.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述接收待爬取的用户清单,将所述用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合之前,还包括:将训练集数据中每一用户的关键词列表作为待训练朴素贝叶斯模型的输入,将训练集数据中对应用户的舆情评分作为待训练朴素贝叶斯模型的输出,对所述待训练待训练朴素贝叶斯模型进行训练,得到用于预测舆情评分的朴素贝叶斯模型。5.根据权利要求1所述的舆论信息爬取方法,其特征在于,所述将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到与所选定的处理后数据对应目标用户的舆情...

【专利技术属性】
技术研发人员:李晨光
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1