一种基于文本挖掘与深度学习模型的农产品期货价格预测方法及系统技术方案

技术编号:36265661 阅读:25 留言:0更新日期:2023-01-07 10:05
本发明专利技术公开了一种基于文本挖掘与深度学习模型的农产品期货价格预测方法及系统,该方法包括:采集农产品期货历史交易数据和农产品期货新闻文本数据并进行数据预处理;选取T天为窗口滑动划分数据集,将得到的数据集作为多特征数据样本;使用双向长短期记忆神经网络(BiLSTM)提取价格特征;使用卷积神经网络(textCNN)提取文本特征;使用snowNLP提取新闻情感特征;搭建深度神经网络融合三种特征对提前一步的农产品期货收盘价进行预测。本发明专利技术考虑影响农产品期货价格波动的市场和非市场因素,基于文本挖掘与深度学习模型对农产品期货价格趋势进行预测,该方法能够挖掘新闻文本和价格序列的深层特征,且具备更高的预测精度。且具备更高的预测精度。且具备更高的预测精度。

【技术实现步骤摘要】
一种基于文本挖掘与深度学习模型的农产品期货价格预测方法及系统


[0001]本专利技术涉及的是期货价格预测领域,特别涉及一种基于文本挖掘与深度学习模型的农产品期货价格预测方法。

技术介绍

[0002]期货价格属于时间序列数据,相比其他结构化数据更具趋势性、周期性和随机性。而近年来受国际环境总体形势日趋复杂、气候灾难和疫情变化等难以量化的因素影响,期货市场的波动也随之加剧,如何捕捉到能够反映这些信息的特征,融入期货价格的预测过程,进而提高预测结果的准确性,是目前亟待解决的难题。
[0003]通过对文献的查阅和整理发现,目前期货价格预测多采用单时间序列或根据经验法则选择外生变量作为模型输入进行预测,虽然在一定程度上提升了预测效果,但在预测的过程中产生人为干预影响,并且不能确定这些外生变量影响农产品期货价格的周期性和范围。随着深度学习和文本挖掘技术的成熟,网络媒体中包含的海量非结构化信息的价值得到发掘,现有基于非结构化数据的期货预测主要通过从媒体文本中提取情感特征和事件特征,与期货价格同时进行预测,其中存在以下值得探讨的问题:第一,文本数据可能存在较多的冗余信息,从中提取的情感特征噪声较大,容易影响模型对情感极性的判断;第二,需要对特定语料进行大量的人工标注工作,特征的构建无可避免受到主观判断的影响,同时容易造成文本中的其他信息被忽略;第三,结构化的期货价格数据与非结构化的文本信息特征的融合方式也值得商榷,部分研究将期货交易数据、大量金融指标数据和单一情感特征直接拼接作为预测模型的输入,没有考虑数据维度的差异,容易导致情感特征的作用在整体预测过程中被削弱。

技术实现思路

[0004]本专利技术的目的在于提供一种基于文本挖掘与深度学习模型的农产品期货价格预测方法,从农产品期货历史交易数据和相关新闻文本数据中提取农产品价格特征、新闻文本特征与新闻情感特征,将这些特征输入深度学习模型中,从而提高农产品期货价格预测的精度。
[0005]本专利技术还提供一种基于文本挖掘与深度学习模型的农产品期货价格预测系统。
[0006]为实现上述目的,本专利技术所采用的技术方案是:
[0007]一种基于文本挖掘与深度学习模型的农产品期货价格预测方法,包括以下步骤:
[0008]步骤1:数据预处理,对价格序列进行数据清洗和归一化处理,对文本数据集进行分词和停用词去除,利用词嵌入技术word2vec和TF

IDF将新闻标题表示成低维的稠密矩阵;
[0009]步骤2:特征提取,通过BiLSTM神经网络的时序记忆能力学习历史交易数据的动态变化规律,将价格序列映射到高维空间进行抽象表示,输出价格特征;基于新闻文本的表示
向量矩阵,使用textCNN进行融合语义信息的文本特征提取;基于完成预处理的新闻文本使用SnowNLP库提取情感特征;
[0010]步骤3:特征融合,搭建深度神经网络特征融合层,拼接同一时间尺度下的价格特征、文本特征以及情感特征;
[0011]步骤4:预测,通过全连接层的激活函数ReLU计算农产品期货价格的预测结果并输出。
[0012]优选的,所述步骤1的数据采集与数据预处理包括以下子步骤:
[0013]步骤1.1:制定采集规则,选定数据采集的目标网站,确定检索关键词、采集的数据量以及数据的时间区间;
[0014]步骤1.2:网络爬虫,根据制定的数据采集规则,通过网络爬虫技术爬取农产品期货交易历史数据以及新闻标题;
[0015]步骤1.3:数据清洗,对采集的农产品期货收盘价数据和新闻标题分别进行缺失值处理、无关标题和异常内容剔除;
[0016]步骤1.4:归一化处理,采用Min

Max方法对农产品期货的收盘价进行归一化处理,计算公式如下:
[0017][0018]其中,p为期货原始收盘价,p

为归一化后的收盘价。
[0019]步骤1.5:新闻文本分词和停用词去除,使用中文停用词表、哈工大停用词表、百度停用词表和四川大学机器智能实验室停用词库,采用python的jieba分词器在分词过程中直接去除停用词;
[0020]步骤1.6:词向量训练,采用TF

IDF叠加word2vec模型进行词向量训练,能够考虑不同词语在整体文本中的重要性的同时增强新闻标题短文本词向量的表达能力,最终获得低维且稠密的文本向量。
[0021]优选的,所述步骤2的特征提取包括以下子步骤:
[0022]步骤2.1:通过滑动窗口法沿时间戳取固定窗口大小的价格序列和文本向量作为样本;
[0023]步骤2.2:使用BiLSTM提取农产品期货价格特征,通过滑动窗口法沿时间戳取固定窗口大小的价格序列作为样本输入神经网络中的BiLSTM层,同时学习样本窗口内价格序列历史数据和未来数据的波动信息;
[0024]步骤2.3:使用textCNN建立文本特征,利用网络结构中多个不同尺寸的卷积核深度学习样本窗口中的文本关联特征,提取向量矩阵中的关键信息特征;
[0025]步骤2.4:使用snowNLP提取新闻情感特征,对所使用的新闻标题数据集进行情感标注,引入多类常用中文情感词汇库对snowNLP本身的语料库进行扩展;基于新建立的语料库使用snowNLP的模型进行重新训练,得到每个新闻标题的新闻情感特征。
[0026]优选的,所述步骤3的特征融合包括以下子步骤:
[0027]步骤3.1:使用concatenate函数拼接同一时间尺度下的价格特征、文本特征和情感特征,拼接后的特征序列如下:
[0028][0029]其中,p
i
为价格序列,D
i
为文本向量序列,s
i
为情感特征序列。
[0030]一种应用所述的一种基于文本挖掘与深度学习模型的农产品期货价格预测方法的系统,包括以下模块:
[0031]数据预处理模块:对价格序列进行数据清洗和归一化处理,对文本数据集进行分词和停用词去除,利用词嵌入技术word2vec和TF

IDF将新闻标题表示成低维的稠密矩阵;
[0032]特征提取模块:通过BiLSTM神经网络的时序记忆能力学习历史交易数据的动态变化规律,将价格序列映射到高维空间进行抽象表示,输出价格特征;基于新闻文本的表示向量矩阵,使用textCNN进行融合语义信息的文本特征提取;基于完成预处理的新闻文本使用SnowNLP库提取情感特征;
[0033]特征融合模块:搭建深度神经网络特征融合层,拼接同一时间尺度下的价格特征、文本特征以及情感特征;
[0034]预测模块:通过全连接层的激活函数ReLU计算农产品期货价格的预测结果并输出。
[0035]一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,所述处理器执行计算机程序时实现所述的基于文本挖掘与深度学习模型的农产品期货价格预测方法。
[0036]一种计算机可读存储介质,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本挖掘与深度学习模型的农产品期货价格预测方法,其特征在于,包括以下步骤:步骤1:数据预处理,对价格序列进行数据清洗和归一化处理,对文本数据集进行分词和停用词去除,利用词嵌入技术word2vec和TF

IDF将新闻标题表示成低维的稠密矩阵;步骤2:特征提取,通过BiLSTM神经网络的时序记忆能力学习历史交易数据的动态变化规律,将价格序列映射到高维空间进行抽象表示,输出价格特征;基于新闻文本的表示向量矩阵,使用textCNN进行融合语义信息的文本特征提取;基于完成预处理的新闻文本使用SnowNLP库提取情感特征;步骤3:特征融合,搭建深度神经网络特征融合层,拼接同一时间尺度下的价格特征、文本特征以及情感特征;步骤4:预测,通过全连接层的激活函数ReLU计算农产品期货价格的预测结果并输出。2.根据权利要求1所述的一种基于文本挖掘与深度学习模型的农产品期货价格预测方法,其特征在于:所述步骤1的数据采集与数据预处理包括以下子步骤:步骤1.1:制定采集规则,选定数据采集的目标网站,确定检索关键词、采集的数据量以及数据的时间区间;步骤1.2:网络爬虫,根据制定的数据采集规则,通过网络爬虫技术爬取农产品期货交易历史数据以及新闻标题;步骤1.3:数据清洗,对采集的农产品期货收盘价数据和新闻标题分别进行缺失值处理、无关标题和异常内容剔除;步骤1.4:归一化处理,采用Min

Max方法对农产品期货的收盘价进行归一化处理,计算公式如下:其中,p为期货原始收盘价,p

为归一化后的收盘价。步骤1.5:新闻文本分词和停用词去除,使用中文停用词表、哈工大停用词表、百度停用词表和四川大学机器智能实验室停用词库,采用python的jieba分词器在分词过程中直接去除停用词;步骤1.6:词向量训练,采用TF

IDF叠加word2vec模型进行词向量训练,能够考虑不同词语在整体文本中的重要性的同时增强新闻标题短文本词向量的表达能力,最终获得低维且稠密的文本向量。3.根据权利要求2所述的一种基于文本挖掘与深度学习模型的农产品期货价格预测方法,其特征在于:所述步骤2的特征提取包括以下子步骤:步骤2.1:通过滑动窗口法沿时间戳取固定窗口大小的价格序列和文本向量作为样本;步骤2.2:使用BiLSTM提取农产品期货价格特征,通过滑动窗口法沿时间戳取...

【专利技术属性】
技术研发人员:张大斌曾芷媚余泽汇黄均杰吕兴张学竞林锐斌
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利