一种基于神经网络的舆情量化方法技术

技术编号：26378660 阅读：30 留言：0更新日期：2020-11-19 23:47

本发明专利技术公开了一种基于神经网络的舆情量化方法，步骤为：1）利用爬虫技术采集用户在社交平台上的舆论文本数据，将采集的数据以文本形式存储于数据库中；2）对收集的舆论文本数据进行数据预处理；3）根据预处理后的数据，构建舆论分析数据集；4）构建网络模型，利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练；5）利用训练好的网络模型对舆论文本进行量化；该方法可以通过神经网络的方式对符号化文本进行量化，并且采用了多特征碎片的权重计算来确定各类因素的影响权重。较传统方法而言，该方法更加灵活，鲁棒性更强，从社会经济来看，该方法可以紧抓热点，跟随数据量的增大而更加客观理性，更加符合舆情实际结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的舆情量化方法
本专利技术涉及人工智能及深度学习
，具体是一种基于神经网络的舆情量化方法。
技术介绍
随着互联网的蓬勃发展，用户迅速增加，用户上网所产生信息不断增长，这为大数据的研究发展提供了庞大的数据，数据随着用户的增多而飞速增加，大量的舆论数据以文字的形式出现在互联网上，从各类社交媒体反映着社会的主观认识和价值。如何从其中提取出一些商业风险信息并且将其量化成数字的形式的方法具有极大的价值。目前，现有技术中没有一个成熟的风险量化方法，其难点在于对于以符号化的文字无法用一种客观的形式来将其数字化，对于舆情文本而言需要考虑的各方面因素非常多，各种权重分布也无法客观进行统计学方面的判断。
技术实现思路
本专利技术的目的在克服现有技术的不足，而提供一种基于神经网络的舆情量化方法，该方法基于特征融合的神经网络进行风险量化，利用神经网络可以进行特征量化的方式，充分利用舆情特征，符合客观的分析，计算特征能力较强，底层技术比较成熟，可以将符号化的文字量化成风险分数。实现本专利技术目

【技术保护点】
1.一种基于神经网络的舆情量化方法，其特征在于，包括如下步骤：/n1)利用爬虫技术采集用户在社交平台上的舆论文本数据，将采集的数据以文本形式存储于数据库中；/n2)对收集的舆论文本数据进行数据预处理；/n3)根据预处理后的数据，构建舆论分析数据集；/n4)构建网络模型，利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练，网络模型的构建方法包括如下步骤：/n4-1)建立编码层Embedding，使用随机编码技术将文字符号映射成一个随机向量用来表示文字特征和关联因素；/n4-2)建立循环神经网络层RNN和长短记忆网络层LSTM，用于接收编码层输出的数据，计算长期语义依赖，得到一个包含...

【技术特征摘要】
1.一种基于神经网络的舆情量化方法，其特征在于，包括如下步骤：
1)利用爬虫技术采集用户在社交平台上的舆论文本数据，将采集的数据以文本形式存储于数据库中；
2)对收集的舆论文本数据进行数据预处理；
3)根据预处理后的数据，构建舆论分析数据集；
4)构建网络模型，利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练，网络模型的构建方法包括如下步骤：
4-1)建立编码层Embedding，使用随机编码技术将文字符号映射成一个随机向量用来表示文字特征和关联因素；
4-2)建立循环神经网络层RNN和长短记忆网络层LSTM，用于接收编码层输出的数据，计算长期语义依赖，得到一个包含语义关系仅仅只能被网络模型识别的语义特征值；
4.3)建立NextVlad网络层和卷积CNN网络层，用于聚合步骤4-2)所得的特征值；
4-4)经过步骤4-3)的网络层聚合，得到范围为[-1，1]的分数，该分数代表输入文本和关联因素之间的量化分数；
4-5)将步骤3)中的舆论分析数据集当作模型的输入数据，对模型进行反复训练，实行梯度下降训练，得到训练好的网络模型；
5)利用训练好的网络模型对舆论文本进行量化，具体包括如下步骤：
5-1)将需要进行量化分析的数据按照步骤2)方式进行预处理，并按照步骤3)的格式将数据构建成舆论分析数据集；
5-2)将步骤5-1)得到的舆论分析数据集输入训练好的网络模型中，得到舆论文本与关联因素间量化关系的分数，从而完成舆论数据的量化。

2.根据权利要求1所述的一种基于神经网络的舆情量化方法，其特征在于，步骤2)中，所述的预处理，包括数据清洗，半结构化、...

【专利技术属性】
技术研发人员：钟艳如，赵蕾先，贺昭荣，高宏，罗笑南，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人