一种集成深度模型的金融文本检测方法技术

技术编号:36926531 阅读:13 留言:0更新日期:2023-03-22 18:49
本发明专利技术提供了一种集成深度模型的金融文本检测方法,该方法利用结合注意力机制的双向长短期记忆网络子模型、决策树极端梯度提升算法子模型和双向编码表征的装箱模型和非装箱模型对金融文本分别进行预测,并调整双向长短期记忆网络子模型的权值为0.8,决策树极端梯度提升算法子模型的权值为0.2时的结果和最大值自变量点集函数的预测产生一个部分结果,然后结合双向编码表征的装箱模型和非装箱模型的结果,将三个结果结合在一起,取三个结果的交集预测该金融文本的类别。交集预测该金融文本的类别。

【技术实现步骤摘要】
一种集成深度模型的金融文本检测方法


[0001]本专利技术属于自然语言处理和社交网络领域,尤其涉及基于双向长短期记忆网络、决策树极端梯度提升算法和双向编码表征模型的金融文本检测方法。

技术介绍

[0002]互联网和社交媒体的大量使用,使得现代金融文本传播已经从传统的传播方式转变为社交媒体为主。利用互联网和社交媒体上的金融数据挖掘出有价值的信息,是可以辅助金融机构及散户投资决策的。但是目前对情感分析的研究主要集中在电影或商品的评论领域,对金融文本情感分析的研究还处于起步阶段,尽管最近几年对文本情感分析的研究有了较大的发展,但是直接把对电影评论或商品评论等传统的方法应用于金融领域,效果并不理想。
[0003]针对以上问题,本专利技术提出了一种基于双向长短期记忆网络、决策树极端梯度提升算法和双向编码表征模型的金融文本检测方法。首先在发布金融信息的微信群中抓取了26216条金融文本的语料,并由有金融背景的人员手工标注语料的情感类别;然后,对金融语料使用了结巴分词软件、词向量模型等算法提取特征词,分别使用多种统计方法将文本向量化,并对情感词的褒贬义和重要词的权值调整进行了比较研究;最后,将向量输入到集成深度模型中,通过不断调整参数,训练最优的模型对金融文本进行预测。该方法可以提高金融情感分析的正确率,进而更加准确判断金融市场的走势,帮助用户做出更加正确的决策。

技术实现思路

[0004]本专利技术公开了一种集成深度模型的金融文本检测方法,基于双向长短期记忆网络、决策树极端梯度提升算法和双向编码表征模型的检测方法。
[0005]为了达到上述目的,本专利技术提供如下技术方案:
[0006]一种集成深度模型的金融文本检测方法,包含以下步骤:
[0007]步骤1:从社交媒体和网络上收集金融文本,并将收集到的金融文本进行分类标注,分为供给和需求两类,然后根据数据分布规律将金融文本分为训练集与测试集;
[0008]步骤2:对训练集与测试集进行文本预处理,然后使用分词软件将预处理之后的训练集和测试集进行分词处理,并将经过分词处理后的训练集作为训练样本,测试集作为测试样本,对训练样本和测试样本进行标准化处理;
[0009]步骤3:利用步骤2中分词处理后的训练样本、标准化处理后的训练样本以及集成深度学习模型构建金融文本检测分类器;
[0010]步骤4:利用金融文本检测分类器,对分词处理后的测试样本、标准化处理后的测试样本进行类别检测,得到检测结果,并根据检测结果确定金融文本类型。
[0011]优选的,所述步骤2,具体包括以下子步骤:
[0012]步骤2.1:清除训练集与测试集中金融文本的标点符号、特殊符号,删除停止词、缩
略词和纠正一些拼写错误的单词;
[0013]步骤2.2:使用结巴分词软件将步骤2.1中处理之后的金融文本进行分词处理;
[0014]步骤2.3:使用词向量模型处理步骤2.2中分词后的金融文本,得到金融文本的词向量、文本向量和位置向量表示,所有词向量表示为字典;
[0015]步骤2.4:使用词频

逆文本频率工具对步骤2.3中得到的词向量进行标准化处理,得到标准化向量。
[0016]优选的,所述步骤3,具体包括以下子步骤:
[0017]步骤3.1:将步骤2.4中得到的标准化向量输入到双向长短期记忆的双层注意力的神经网络的两个不同的网络架构中,为两个不同的网络架构提供信息。第一个输入是已编码的句子到它们的层次,它是一个由300维预训练的向量组成的查询表,用来表示每个单词,然后进入两个双向长短期记忆的双层注意力的神经网络层,每个层有256个节点,然后抛弃0.2个网络中隐藏层的节点,以避免过拟合。接着将来自双向长短期记忆的双层注意力的神经网络层的输出与全局最大池和全局平均池连接。最后,输出模型预测的结果1;
[0018]步骤3.2:使用梯度增强框架的决策树集成机器学习算法。将步骤2.4中得到的标准化向量和标签输入到决策树极端梯度提升算法中,然后将术语频率和词频

逆文本频率算法中计算每个单词的分数,作为每个单词的特征值。模型预测的输出值是概率,最后将概率值转换为0或1输出最终预测的结果2。
[0019]步骤3.3:将步骤2.3中得到的训练集词向量、文本向量和位置向量依次分别输入到双向编码表征的装箱和非装箱模型中。双向编码表征模型可以进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间的关系特征。其预训练过程就是逐渐调整模型参数,使得模型输出的文本语义表示能够刻画语言的本质,输出的是输入对应的融合全文语义信息后的向量表示。最后,双向编码表征的装箱模型预测的结果记为结果3,非装箱模型的预测的结果记为结果4。
[0020]步骤3.4:使用最大值自变量点集函数取步骤3.1得到的结果1的权值为0.8,步骤3.2得到的结果2的权值为0.2,预测产生一个结果5。然后结合步骤3.3中得到的结果3和结果4,最后取结果3、4、5的交集预测金融文本的类型。
[0021]本专利技术的有益成果是建立自动工具来更好的对金融文本进行预测,进一步提高金融情感分析的正确率。新颖之处在于,尝试了几种模型之间的组合,通过把金融文本同时输入到四个模型中,通过不断进行训练,调整参数对模型进行优化,四个模型还可以有效地取长补短,得到了很好的性能。
附图说明
[0022]图1是基于双向长短期记忆网络、决策树极端梯度提升算法和双向编码表征模型的系统架构图。
[0023]图2是结合注意力机制的双向长短期记忆神经网络架构图。
[0024]图3是长短期记忆神经网络模型图。
[0025]图4是Transformer模型的网络架构图。
具体实施方式
[0026]下面结合附图和具体实施例对本专利技术的具体实施方式做进一步说明:
[0027]结合图1至图4一种集成深度模型的金融文本检测方法,包括如下步骤:
[0028]步骤1:从社交媒体和网络上收集金融文本,并将收集到的金融文本进行分类标注,分为供给和需求两类,然后根据数据分布规律将金融文本分为训练集与测试集。
[0029]步骤2:对训练集与测试集进行文本预处理,然后使用分词软件将预处理之后的训练集和测试集进行分词处理,并将经过分词处理后的训练集作为训练样本,测试集作为测试样本,对训练样本和测试样本进行标准化处理。
[0030]步骤2.1:清除训练集与测试集中金融文本的标点符号、特殊符号,删除停止词、缩略词和纠正一些拼写错误的单词;
[0031]步骤2.2:使用结巴分词软件将步骤2.1中处理之后的金融文本进行分词处理;
[0032]步骤2.3:使用词向量模型处理步骤2.2中分词后的金融文本,得到金融文本的词向量、文本向量和位置向量表示,所有词向量表示为字典。然后读取词典文件,生成词

索引对应关系,接下来把前面分词预处理过的数据索引化,即根据词典索引对应关系,使用词嵌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集成深度模型的金融文本检测方法,其特征在于,包含以下步骤:步骤1:从社交媒体和网络上收集金融文本,并将收集到的金融文本进行分类标注,分为供给和需求两类,然后根据数据分布规律将金融文本分为训练集与测试集;步骤2:对训练集与测试集进行文本预处理,然后使用分词软件将预处理之后的训练集和测试集进行分词处理,并将经过分词处理后的训练集作为训练样本,测试集作为测试样本,对训练样本和测试样本进行标准化处理;步骤3:利用步骤2中分词处理后的训练样本、标准化处理后的训练样本以及集成深度学习模型构建金融文本检测分类器;步骤4:利用金融文本检测分类器,对分词处理后的测试样本、标准化处理后的测试样本进行类别检测,得到检测结果,并根据检测结果确定金融文本类型。2.根据权利要求1所述的一种集成深度模型的金融文本检测方法,其特征在于,所述步骤2,具体包括以下子步骤:步骤2.1:清除训练集与测试集中金融文本的标点符号、特殊符号,删除停止词、缩略词和纠正一些拼写错误的单词;步骤2.2:使用结巴分词软件将步骤2.1中处理之后的金融文本进行分词处理;步骤2.3:使用词向量模型处理步骤2.2中分词后的金融文本,得到金融文本的词向量、文本向量和位置向量表示,所有词向量表示为字典;步骤2.4:使用词频

逆文本频率工具对步骤2.3中得到的词向量进行标准化处理,得到标准化向量。3.根据权利要求2所述的一种集成深度模型的金融文本检测方法,其特征在于,所述步骤3包括将步骤2中得到的分词处理后的训练样本、标准化处理后的训练样本分别输入到四个深度学习模型中,最后进行整合并分类,具体包括以下步骤:步骤3.1:将步骤2....

【专利技术属性】
技术研发人员:田刚刘倩王蕊
申请(专利权)人:青岛声翘智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1