【技术实现步骤摘要】
基于事件抽取的金融数据分析方法及装置
本专利技术涉及人工智能领域,尤其涉及一种基于事件抽取的金融数据分析方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着金融行业的不断发展,对社会经济运行的重要性越来越强,对金融数据进行有效分析,是整个社会经济活动的重要工作之一。金融时间序列数据,是金融领域中随时间推移具有一定变化规律的时序数据,例如,股票数据、期货数据等。由于金融时间序列数据是时间序列数据的一种,具有很强的时间性,前后数据往往存在较强的依赖关系或周期关系,可基于统计的方式根据现有数据对未来数据进行预测。由于金融时间序列数据受多种因素影响,具有非线性、非平稳性、复杂性等特点,是金融数据分析中极具挑战性的研究课题。目前,现有技术中主要采用数据建模的方式,对金融数据进行分析预测。但因金融数据受到政策、基本面、市场情绪、自然灾害、重大风险提示等多方面事件因素影响,若只针对数据本身进行分析,很难准确预测未来的走势。在金融领域,各种金融事件的载体(例如,新闻、评论等资讯数据),能够在一定程度上反映出市场走向与投资者的情绪,从而影响投资决策和市场走势。对于金融事件的抽取,目前主要是依靠研究人员采用人工总结的方式来实现,这种人工总结方式不仅效率低下,且要求研究人员具有丰富的专业背景,门槛较高。因而,如何提供一种自动抽取金融事件、自适应分析金融数据走势的分析方法,以提升金融数据预测的精确度与效率,是本领域 ...
【技术保护点】
1.一种基于事件抽取的金融数据分析方法,其特征在于,包括:/n获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;/n从每条资讯的资讯标题中,抽取结构化的金融事件数据;/n将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;/n统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;/n将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列,其中,所述金融时间序列用于反映所述待分析金融数据的数据变化趋势。/n
【技术特征摘要】
1.一种基于事件抽取的金融数据分析方法,其特征在于,包括:
获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;
从每条资讯的资讯标题中,抽取结构化的金融事件数据;
将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;
统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;
将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列,其中,所述金融时间序列用于反映所述待分析金融数据的数据变化趋势。
2.如权利要求1所述的方法,其特征在于,获取资讯数据,包括:
获取目标网站的网址信息;
根据目标网站的网址信息,向所述目标网站发送HTTP请求,获取所述目标网站的页面内容;
根据预先设定的关键字,使用正则表达式,从所述目标网站的页面内容中,匹配出相应的资讯标题。
3.如权利要求2所述的方法,其特征在于,根据预先设定的关键字,使用正则表达式匹配所述页面内容中相应的资讯标题,包括:
从所述目标网站的页面内容中解析出一个或多个子页面的网址信息;
根据各个子页面的网址信息,向各个子页面发送HTTP请求,获取各个子页面的页面内容;
根据预先设定的关键字,使用正则表达式,从所述目标网站和各个子页面的页面内容中,匹配出相应的资讯标题。
4.如权利要求1所述的方法,其特征在于,从每条资讯的资讯标题中,抽取结构化的金融事件数据,包括:
获取预先设定的事件触发词;
根据预先设定的事件触发词,利用SimHash算法,对获取的资讯标题进行去重处理;
从去重处理后的资讯标题中,抽取结构化的金融事件数据。
5.如权利要求4所述的方法,其特征在于,根据预先配置的事件触发词,利用SimHash算法,对获取的资讯数据进行去重处理,包括:
根据预先配置的事件触发词,对每个资讯标题进行分词,得到多个特征向量;
利用Hash函数,计算各个特征向量的Hash值;
根据每个资讯标题各个特征向量的Hash值和对应的权重值,计算每个资讯标题的SimHash值;
根据两个资讯标题的SimHash值,计算两个资讯标题的海明距离,作为两个资讯标题的相似度;
如果两个资讯标题的相似度小于预设阈值,则删除其中一个资讯标题。
6.如权利要求4所述的方法,其特征在于,从去重处理后的资讯标题中,抽取结构化的金融事件数据,包括:
使用BERT模型,对每个资讯标题的句子进行编码,得到每个资讯标题对应的句子向量以及句子中各个事件触发词的向量;
根据每个资讯标题对应的句子向量,识别出金融事件的事件类型;
根据事件类型对应的句子向量以及句子中各个事件触发词的向量,识别出每个资讯标题中包含的事件元素实体;
对每个资讯标题中包含的各个事件元素实体进行角色识别,得到结构化的金融事件数据。
7.如权利要求1所述的方法,其特征在于,在将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出所述金融事件数据的情感分类结果之前,所述方法还包括:
对结构化的金融事件数据进行情感分类标注;
根据标注后的金融事件数据,生成第一训练样本数据;
根据第一训练样本数据,训练一个基于注意力机制的金融主体情感分析模型,其中,所述金融主体情感分析模型包含:词嵌入层、网络层、注意力机制层和全连接层,所述词嵌入层用于将结构化的金融数据转换为一个固定长度的矩阵向量;所述网络层用于将词嵌入层输出的矩阵向量输入到双向长短期记忆网络模型进行特征提取,得到特征向量;所述注意力机制层用于将所述网络层输出的特征向量进行聚合和加权处理;所述全连接层用于对所述注意力机制层输出的特征向量进行融合,使用softmax函数得到金融事件数据的情感分类结果。
8.如权利要求1所述的方法,其特征在于,统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量,包括:
根据预先设定的金融数据特征,生成待分析金融数据的特征向量,对生成的特征向量进行归一化处理,得到所述待分析金融数据归一化后的特征向量;
统计多个时间点各个情感分类对应的金融事件量,并根据每个预设时间点各个情感分类的金融事件量,生成每个预设时间点对应的偏差向量;
将所述多个时间点对应的偏差向量与所述待分析金融数据归一化的特征向量进行拼接,得到融合后的特征向量。
9.如权利要求1所述的方法,其特征在于,在将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列之前,所述方法还包括:
对金融数据的特征向量进行数据变化趋势标注;
根据标注后的金融数据,生成第二训练样本数据;
根据第二训练样本数据,训练一个金融时间序列分析网络模型。
10.一种基于事件抽取的金融数据分析装置,其特征在于,包括:
数据获取模块,用于获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;
金融事件抽取模块,用于从每条资讯的资讯标...
【专利技术属性】
技术研发人员:王立林,杨丹,施生燊,徐克宝,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。