一种集成深度模型的金融文本检测方法技术

技术编号：36926531 阅读：13 留言：0更新日期：2023-03-22 18:49

本发明专利技术提供了一种集成深度模型的金融文本检测方法，该方法利用结合注意力机制的双向长短期记忆网络子模型、决策树极端梯度提升算法子模型和双向编码表征的装箱模型和非装箱模型对金融文本分别进行预测，并调整双向长短期记忆网络子模型的权值为0.8，决策树极端梯度提升算法子模型的权值为0.2时的结果和最大值自变量点集函数的预测产生一个部分结果，然后结合双向编码表征的装箱模型和非装箱模型的结果，将三个结果结合在一起，取三个结果的交集预测该金融文本的类别。交集预测该金融文本的类别。

全部详细技术资料下载

【技术实现步骤摘要】
一种集成深度模型的金融文本检测方法

[0001]本专利技术属于自然语言处理和社交网络领域，尤其涉及基于双向长短期记忆网络、决策树极端梯度提升算法和双向编码表征模型的金融文本检测方法。

技术介绍

[0002]互联网和社交媒体的大量使用，使得现代金融文本传播已经从传统的传播方式转变为社交媒体为主。利用互联网和社交媒体上的金融数据挖掘出有价值的信息，是可以辅助金融机构及散户投资决策的。但是目前对情感分析的研究主要集中在电影或商品的评论领域，对金融文本情感分析的研究还处于起步阶段，尽管最近几年对文本情感分析的研究有了较大的发展，但是直接把对电影评论或商品评论等传统的方法应用于金融领域，效果并不理想。
[0003]针对以上问题，本专利技术提出了一种基于双向长短期记忆网络、决策树极端梯度提升算法和双向编码表征模型的金融文本检测方法。首先在发布金融信息的微信群中抓取了26216条金融文本的语料，并由有金融背景的人员手工标注语料的情感类别；然后，对金融语料使用了结巴分词软件、词向量模型等算法提取特征词，分别使用多种统计方法将文本向量化，并对情感词的褒贬义和重要词的权值调整进行了比较研究；最后，将向量输入到集成深度模型中，通过不断调整参数，训练最优的模型对金融文本进行预测。该方法可以提高金融情感分析的正确率，进而更加准确判断金融市场的走势，帮助用户做出更加正确的决策。

技术实现思路

[0004]本专利技术公开了一种集成深度模型的金融文本检测方法，基于双向长短期记忆网络、决策树极端梯度提升算法和双向编码表征模型的...

【技术保护点】

【技术特征摘要】
1.一种集成深度模型的金融文本检测方法，其特征在于，包含以下步骤：步骤1：从社交媒体和网络上收集金融文本，并将收集到的金融文本进行分类标注，分为供给和需求两类，然后根据数据分布规律将金融文本分为训练集与测试集；步骤2：对训练集与测试集进行文本预处理，然后使用分词软件将预处理之后的训练集和测试集进行分词处理，并将经过分词处理后的训练集作为训练样本，测试集作为测试样本，对训练样本和测试样本进行标准化处理；步骤3：利用步骤2中分词处理后的训练样本、标准化处理后的训练样本以及集成深度学习模型构建金融文本检测分类器；步骤4：利用金融文本检测分类器，对分词处理后的测试样本、标准化处理后的测试样本进行类别检测，得到检测结果，并根据检测结果确定金融文本类型。2.根据权利要求1所述的一种集成深度模型的金融文本检测方法，其特征在于，所述步骤2，具体包括以下子步骤：步骤2.1：清除训练集与测试集中金融文本的标点符号、特殊符号，删除停止词、缩略词和纠正一些拼写错误的单词；步骤2.2：使用结巴分词软件将步骤2.1中处理之后的金融文本进行分词处理；步骤2.3：使用词向量模型处理步骤2.2中分词后的金融文本，得到金融文本的词向量、文本向量和位置向量表示，所有词向量表示为字典；步骤2.4：使用词频
‑
逆文本频率工具对步骤2.3中得到的词向量进行标准化处理，得到标准化向量。3.根据权利要求2所述的一种集成深度模型的金融文本检测方法，其特征在于，所述步骤3包括将步骤2中得到的分词处理后的训练样本、标准化处理后的训练样本分别输入到四个深度学习模型中，最后进行整合并分类，具体包括以下步骤：步骤3.1：将步骤2....

【专利技术属性】
技术研发人员：田刚，刘倩，王蕊，
申请(专利权)人：青岛声翘智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人