企业舆情库构建方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：22167039 阅读：18 留言：0更新日期：2019-09-21 10:38

本发明专利技术公开了企业舆情库构建方法、装置、计算机设备及存储介质。该方法包括：通过爬虫工具定向爬取第一网址列表中各子网页列表对应网站的网页内容；获取网页内容中包括第一关键词列表中任意一个关键词的网页信息，存储至与各行业领域对应的存储区域；通过爬虫工具并行获取第二网址列表中各网站在预设的时间段的源数据集，对源数据集中每一源数据进行预处理，得到对应的处理后数据；通过行业分类模型，对各处理后数据进行行业分类，得到行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域。该方法采用爬虫技术，实现了基于网络大数据来构建舆情库，即通过爬虫定向爬取信息后对数据由分类模型进行分类，搭建难度和成本均降低。

Construction Method, Device, Computer Equipment and Storage Media of Enterprise Public Opinion Database

全部详细技术资料下载

【技术实现步骤摘要】
企业舆情库构建方法、装置、计算机设备及存储介质
本专利技术涉及数据采集
，尤其涉及一种企业舆情库构建方法、装置、计算机设备及存储介质。
技术介绍
目前，特定领域的行业舆情信息，具有全网分散性，比较难以搜集到对应的舆情内容。例如，金融行业信息主要分散在财经网站、股票论坛以及微博社交媒体平台等；工业行业信息主要分散在工业论坛、工业新闻网站等平台。也即经济舆情库是针对经济整体状况的信息搜集和反映整体经济的发展状况，而目前经济库的建立，大多是基于外部购买数据，较少基于网络大数据来构建，这就导致舆情库搭建难度较大，且成本较高。
技术实现思路
本专利技术实施例提供了一种企业舆情库构建方法、装置、计算机设备及存储介质，旨在解决现有技术中经济舆情库建立大多是基于外部购买数据，较少基于网络大数据来构建，这就导致舆情库搭建难度较大，且成本较高的问题。第一方面，本专利技术实施例提供了一种企业舆情库构建方法，其包括：通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据；通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域；以及按预设的时间周期在每一行业领域对应的存储区域中...

【技术保护点】
1.一种企业舆情库构建方法，其特征在于，包括：通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据；通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域；以及按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型；其中，所述变化指数包括与企业营业收入对应的第一变化指数、与利润对应的第二变化指数、及与行业领域的总热度值对应的第三变化指数。...

【技术特征摘要】
1.一种企业舆情库构建方法，其特征在于，包括：通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据；通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域；以及按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型；其中，所述变化指数包括与企业营业收入对应的第一变化指数、与利润对应的第二变化指数、及与行业领域的总热度值对应的第三变化指数。2.根据权利要求1所述的企业舆情库构建方法，其特征在于，所述对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据，包括：将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以得到与每一源数据对应的处理后数据。3.根据权利要求1所述的企业舆情库构建方法，其特征在于，所述按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，包括：按年为周期获取每一行业领域对应的存储区域中位于预设的排名阈值之前的企业营业收入对应的第一变化指数；按年为周期获取每一行业领域对应的存储区域中利润对应的第二变化指数；按年为周期获取每一行业领域对应的存储区域相应的总热度值对应的第三变化指数。4.根据权利要求3所述的企业舆情库构建方法，其特征在于，所述按年为周期获取每一行业领域对应的存储区域相应的总热度值对应的第三变化指数之前，还包括：根据每一存储区域中对应存储的处理后数据，及预设的舆情热度模型，获取与各存储区域的处理后数据一一对应的文本热度值，按所述时间周期获取每一存储区域中对应存储的处理后数据对应的总热度值。5.根据权利要求4所述的企业舆情库构建方法，其特征在于，所述根据每一存储区域中对应存储的处理后数据，及预设的舆情热度模型，获取与各存储区域的处理后数据一一对应的文本热度值，包括：获取每一处理后数据的点赞数、评论数和转发数之和以得到每一处理后数据对应源数据的热度值；获取每一处理后数据的发表时间与当前系统时间之差并乘以...

【专利技术属性】
技术研发人员：吴壮伟，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人