【技术实现步骤摘要】
基于多头自注意力及LSTM的金融舆情分类方法及系统
[0001]本专利技术涉文本数据处理
,特别是涉及基于多头自注意力及LSTM的金融舆情分类方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]对于金融投资者来说,在具备庞大信息量的各类新闻或大众评论中,并非所有的信息都值得参考。对于金融相关的文本进行分析,其有效性取决于对目标文章分析的完整性以及目标文章的质量。例如,相较于文章标题来说,分析一篇完整的公司新闻显然更能准确把握公司的综合能力发展趋势。然而,大部分研究人员只关注新闻的标题而忽略了新闻文本内容,不关注真正能够体现投资者情绪的主观数据,缺乏对新闻的文本内容以及帖子的文本内容正确的处理和分析。
[0004]另外,在庞大的金融领域文本中,不同新闻与关注事件相关的在线内容的质量、可信度和全面性差异很大。因此不同的金融文本对金融市场的影响不能以一概全,需要区别对待,在处理不同的网络新闻的时候,需要根据其内在的内容来区分,一些无用的评 ...
【技术保护点】
【技术特征摘要】
1.基于多头自注意力及LSTM的金融舆情分类方法,其特征是,包括:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,调优包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。2.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,包括:将新闻全文文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到新闻全文文本的加权句嵌入向量;将新闻全文文本的加权句嵌入向量和新闻全文文本的初始句嵌入向量进行拼接,得到新闻全文文本的总特征向量,将新闻全文文本的总特征向量进行分类,得到新闻全文文本的情感分数。3.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,还包括:对评论文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到评论文本的加权句嵌入向量;将评论文本的加权句嵌入向量和评论文本的初始句嵌入向量进行拼接,得到评论文本的总特征向量,将评论文本的总特征向量进行分类,得到评论的情感分数。4.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述训练后的金融舆情分类模型,其训练过程包括:
构建训练集;所述训练集为已知网络新闻舆情分类标签的网络新闻全文数据和评论数据,其中,将网络新闻数据和评论数据划分为三类:积极,消极,正常这三种情绪;将训练集预处理后,输入到金融舆情分类模型中,对模型进行训练,训练过程中采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,将模型的全局最优解信息纳入最优化搜索策略中,当模型的交叉熵损失函数值不再降低时,停止训练,得到训练后的金融舆情分类模型。5.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述语义特征分割模型,包括:判断模块,所述判断模块用于判断输入值是新闻全文本还是评论文本;所述判断模块,分别与第一分支的输入端和第二分支的输入端连接;其中,第一分支,包括:依次连接的分割单元、面向金融领域的第一预...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。