一种基于用户画像和知识图谱的股票风险预测方法及系统技术方案

技术编号:28297303 阅读:24 留言:0更新日期:2021-04-30 16:22
本申请公开了一种基于用户画像和知识图谱的股票风险预测方法及系统,包括以下步骤:利用股票领域相关文本数据和金融知识图谱,构建金融事件特征;利用用户画像和受影响的股票代码,构建用户投资特征;利用金融事件、金融知识图谱和股票数据的涨跌情况,标定股票风险值;将获得的所述金融事件特征和所述用户投资特征、股票风险值,关联最终形成训练集;将所述训练集,利用LSTM算法进行训练,形成基于用户画像和知识图谱的股票风险预测模型,最终根据投资用户的相关特征进行股票风险信息预测。本发明专利技术组合金融事件特征和用户投资特征,训练LSTM模型,实现投资者持有股票的股票风险预测,可以为用户提供个性化股票风险提示。

【技术实现步骤摘要】
一种基于用户画像和知识图谱的股票风险预测方法及系统
本申请涉及计算机
,尤其涉及一种基于用户画像和知识图谱的股票风险预测方法及系统。
技术介绍
在多种应用场景中,需要对各类事件进行研究和风险预测,例如,确定某互联网公司用户信息泄露事件对网络安全方面的影响度和风险度等等。预测事件对于股票风险的影响方面,主要的方法为:传统模型法和时间序列预测方法。其中,传统模型法包括两类:定量方法和定性方法。1、传统模型法:定量的方法常常使用量化方式进行舆情因子挖掘,构建基于算法的舆情量化因子,也就是,先将事件因子化,并通过一些定量指标,例如该事件后预定时间内历史投资收益的高低,来衡量事件的影响和风险度。定性的方法往往通过人工标注的方式,由人工完成事件的定义、风险程度分析。2、时间序列预测:时间序列预测法其实是一种回归预测方法,其基本原理是:一方面承认事物发展的延续性,运用过去的时间序列数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到由于偶然因素影响而产生的随机性,为了消除随机波动产生的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。但是,上述预测方法存在如下缺陷:1、传统模型法:定量分析的方案往往缺少对事件类型的细致划分,丢失了事件的逻辑脉络,可解释性不强。定性分析,这个过程需要很强的专业分析,需要逐个事件单独分析,未能系统化、自动化,导致分析效率低。并且,分析结果是否正确依赖于分析人员的主观经验是否能覆盖事件的关键属性特征。此外,定性分析的结论往往只能到正负面的方向判断,对于影响程度的判断无法量化,带有很强的主观性。2、时间序列预测:模型单一化、针对股票价格变化,或其基本面影响因子进行预测研究,没有充分考虑金融事件对于股票风险的影响,不能针对用户的风险偏好,为所投资的股票进行风险预测。
技术实现思路
为了解决
技术介绍
中提出的现有技术的问题,本申请提供一种基于用户画像和知识图谱的股票风险预测方法及系统。本申请实施例提供一种基于用户画像和知识图谱的股票风险预测方法,包括以下步骤:利用股票领域相关文本数据和金融知识图谱,构建金融事件特征;利用用户画像和受影响的股票代码,构建用户投资特征;利用金融事件、金融知识图谱和股票数据的涨跌情况,标定股票风险值;将获得的所述金融事件特征和所述用户投资特征,根据股票代码进行关联,形成训练集的特征部分;再将训练集的特征部分与所述股票风险值,根据股票代码进行关联,最终形成训练集;将所述训练集,利用LSTM算法进行训练,形成基于用户画像和知识图谱的股票风险预测模型;将某个待预测投资用户的投资特征和下一时刻的金融事件特征,输入到基于用户画像和知识图谱的股票风险预测模型,为该投资用户投资的股票进行下一时刻的风险值预测,输出该投资用户投资的股票风险值;利用用户投资特征和预测的所述股票风险值,构建股票风险提示信息规则,通过所述股票风险提示信息规则为用户提示股票风险信息。进一步的,所述用户画像的构建方法为:获取理财软件中的用户行为数据和用户调查数据;对所述用户行为数据和用户调查数据通过数据抽取、数据转换和数据融合进行数据处理;将数据处理后的用户行为数据和用户调查数据,经模型层的k-means和GMM算法,对每个标签维度进行聚类;最终形成用户画像,即用户的标签化展示以及标签对应的等级信息。进一步的,所述金融知识图谱的构建方法为:对非结构化数据,进行正文抽取;并利用自然语言处理技术,进行至少中文分词、关键词提取、特征提取的操作;通过包装器学习半结构化数据的抽取规则,对半结构化数据进行内容提取;通过ETL技术获取结构化数据,直接获取实体、实体和实体之间的关系;知识库构建及管理,通过数据映射技术建立知识库中术语和不同数据源抽取知识中词汇的映射关系;使用实体匹配将不同数据源相同客体的数据进行融合;最后对融合而成的知识库进行存储、管理;所述知识库根据用户查询场景的不同采用不同的存储架构,最终形成金融知识图谱。进一步的,所述利用股票领域相关文本数据和金融知识图谱,构建金融事件特征,具体为:通过内容文本库获取股票领域相关文本数据,利用自然语言处理技术对所述文本数据进行分析,首先对文本数据中的内容抽取事件实体,然后抽取影响所述事件实体的事件,利用专家标注法构建事件库;通过抽取的事件实体与金融知识图谱中的实体进行关联,获取受所述事件影响的股票代码,并结合金融知识图谱,从金融知识图谱中挖掘出相关要素;再结合所述事件和该事件发生的时间,共同构成金融事件特征。进一步的,所述利用用户画像和受影响的股票代码,构建用户投资特征,所述用户投资特征具体表示为:E(u)=[user_id,stock_id,x5,x6],其中user_id表示用户id,stock_id表示股票代码,X5表示风险偏好,X6表示风险承受能力,通过one-hot方法将原本类别型的风险偏好X5和风险承受能力X6数据转换成数值形式。进一步的,所述利用金融事件、金融知识图谱和股票数据的涨跌情况,标定股票风险值,具体为:其中,xa为金融事件影响的股票风险值,ω1为金融事件影响的股票风险值的权重,xb为股票数据的涨跌情况影响的股票风险值,ω2为股票数据的涨跌情况影响的股票风险值的权重;选取n个时刻的该支股票的数据进行累加,然后取平均值做为该支股票的股票风险值。进一步的,所述金融事件特征定义为:E(e)=[stock_id,time,x1,x2,x3,x4],其中,stock_id表示股票代码,time为时间,x1表示行业影响、x2表示公司内部经营情况、x3表示利好事件等级、x4表示利空事件等级;对于类别型的数据利用one-hot方法转化成数值型;其中,利好事件等级x3、利空事件等级x4,通过如下方式定义获得:对于事件、事件实体和事件发生的时间,为利好事件等级和利空事件等级进行高、中、低等级标注,积累一定的训练集;将积累的训练集,利用随机森林算法,训练分类模型;对于新发生的事件,将事件、事件实体和事件发生时间,利用训练好的分类模型,为利好事件等级和利空事件等级分类,即分出该事件的高、中、低等级。本申请实施例还提供一种基于用户画像和知识图谱的股票风险预测系统,包括:金融事件特征构建模块,用于利用股票领域相关文本数据和金融知识图谱,构建金融事件特征;投资特征构建模块,用于利用用户画像和受影响的股票代码,构建用户投资特征;股票风险值标定模块,用于利用金融事件、金融知识图谱和股票数据的涨跌情况,标定股票风险值;训练集构建模块,用于将获得的所述金融事件特征和所述用户投资特征,根据股票代码进行关联,形成训练集的特征部分;再将训练集的特征部分与所述股票风险值,根据股票代码进行关联,最终形成训练集;股票风险预测模型本文档来自技高网
...

【技术保护点】
1.一种基于用户画像和知识图谱的股票风险预测方法,其特征在于,包括以下步骤:/n利用股票领域相关文本数据和金融知识图谱,构建金融事件特征;/n利用用户画像和受影响的股票代码,构建用户投资特征;/n利用金融事件、金融知识图谱和股票数据的涨跌情况,标定股票风险值;/n将获得的所述金融事件特征和所述用户投资特征,根据股票代码进行关联,形成训练集的特征部分;再将训练集的特征部分与所述股票风险值,根据股票代码进行关联,最终形成训练集;/n将所述训练集,利用LSTM算法进行训练,形成基于用户画像和知识图谱的股票风险预测模型;/n将某个待预测投资用户的投资特征和下一时刻的金融事件特征,输入到基于用户画像和知识图谱的股票风险预测模型,为该投资用户投资的股票进行下一时刻的风险值预测,输出该投资用户投资的股票风险值;/n利用用户投资特征和预测的所述股票风险值,构建股票风险提示信息规则,通过所述股票风险提示信息规则为用户提示股票风险信息。/n

【技术特征摘要】
1.一种基于用户画像和知识图谱的股票风险预测方法,其特征在于,包括以下步骤:
利用股票领域相关文本数据和金融知识图谱,构建金融事件特征;
利用用户画像和受影响的股票代码,构建用户投资特征;
利用金融事件、金融知识图谱和股票数据的涨跌情况,标定股票风险值;
将获得的所述金融事件特征和所述用户投资特征,根据股票代码进行关联,形成训练集的特征部分;再将训练集的特征部分与所述股票风险值,根据股票代码进行关联,最终形成训练集;
将所述训练集,利用LSTM算法进行训练,形成基于用户画像和知识图谱的股票风险预测模型;
将某个待预测投资用户的投资特征和下一时刻的金融事件特征,输入到基于用户画像和知识图谱的股票风险预测模型,为该投资用户投资的股票进行下一时刻的风险值预测,输出该投资用户投资的股票风险值;
利用用户投资特征和预测的所述股票风险值,构建股票风险提示信息规则,通过所述股票风险提示信息规则为用户提示股票风险信息。


2.根据权利要求1所述的一种基于用户画像和知识图谱的股票风险预测方法,其特征在于,所述用户画像的构建方法为:
获取理财软件中的用户行为数据和用户调查数据;
对所述用户行为数据和用户调查数据通过数据抽取、数据转换和数据融合进行数据处理;
将数据处理后的用户行为数据和用户调查数据,经模型层的k-means和GMM算法,对每个标签维度进行聚类;
最终形成用户画像,即用户的标签化展示以及标签对应的等级信息。


3.根据权利要求1所述的一种基于用户画像和知识图谱的股票风险预测方法,其特征在于,所述金融知识图谱的构建方法为:
对非结构化数据,进行正文抽取;并利用自然语言处理技术,进行至少中文分词、关键词提取、特征提取的操作;
通过包装器学习半结构化数据的抽取规则,对半结构化数据进行内容提取;
通过ETL技术获取结构化数据,直接获取实体、实体和实体之间的关系;
知识库构建及管理,通过数据映射技术建立知识库中术语和不同数据源抽取知识中词汇的映射关系;使用实体匹配将不同数据源相同客体的数据进行融合;最后对融合而成的知识库进行存储、管理;
所述知识库根据用户查询场景的不同采用不同的存储架构,最终形成金融知识图谱。


4.根据权利要求1所述的一种基于用户画像和知识图谱的股票风险预测方法,其特征在于,所述利用股票领域相关文本数据和金融知识图谱,构建金融事件特征,具体为:
通过内容文本库获取股票领域相关文本数据,利用自然语言处理技术对所述文本数据进行分析,首先对文本数据中的内容抽取事件实体,然后抽取影响所述事件实体的事件,利用专家标注法构建事件库;
通过抽取的事件实体与金融知识图谱中的实体进行关联,获取受所述事件影响的股票代码,并结合金融知识图谱,从金融知识图谱中挖掘出相关要素;再结合所述事件和该事件发生的时间,共同构成金融事件特征。


5.根据权利要求1所述的一种基于用户画像和知识图谱的股票风险预测方法,其特征在于,所述利用用户画像和受影响的股票代码,构建用户投资特征,所述用户投资特征具体表示为:
E(u)=[user_id,stock_id,x5,x6],其中user_id表示用户id,stock_id表示股票代码,X5表...

【专利技术属性】
技术研发人员:徐娇冯煜博王广普
申请(专利权)人:沈阳麟龙科技股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1