媒体信息张量监督学习方法技术

技术编号:16874767 阅读:44 留言:0更新日期:2017-12-23 12:27
本发明专利技术公开了一种媒体信息张量监督学习方法,用张量来表示媒体信息空间,从而可以将不同维度的信息和之间的相互关系纪录下来,并基于媒体信息张量利用监督学习算法来捕捉互联网媒体与股票市场的波动关系,从而对股票市场进行预测。本发明专利技术具有以下优点:(1)用张量来表示媒体信息空间,从而将不同维度信息之间的相互关系记录下来;(2)张量监督学习算法实现了计算机学习算法从向量到张量的拓展。

The supervised learning method of media information tensor

The invention discloses a media information tensor supervised learning method, using tensor to represent media information space, which can be of different dimensions and the relationship between information record, and based on the relationship between the fluctuation of media information tensor by supervised learning algorithm to capture the Internet media and the stock market, thus to predict the stock market. The invention has the following advantages: (1) tensor is used to represent the media information space, so that the relationship between different dimension information is recorded; (2) tensor supervised learning algorithm realizes the expansion of computer learning algorithm from vector to tensor.

【技术实现步骤摘要】
媒体信息张量监督学习方法
本专利技术涉及一种监督学习方法,尤其涉及一种媒体信息张量监督学习方法。
技术介绍
随着信息技术的发展,互联网媒体逐渐成为主流的媒体形式。特别是以博客、微博、社会化新闻、维基百科和网络论坛为主的社会化媒体的兴起,其媒体影响力日益加剧。海量信息和裂变式传播使互联网媒体对股票市场产生了举足轻重的影响。当结合不同纬度信息预测股票价格波动时,现有技术是将不同维度的信息特征值拼接为一个超级特征向量,然后运用基于向量预测模型去探测互联网媒体信息对股市的影响。但是,由于不同维度的信息是交互影响,并且紧密相关、互为补充,将不同维度的信息之间的关联隔断后直接拼接成一为一个超级特征向量,这样容易出现维度灾难。维度灾难,即在机器学习算法中输入的属性向量长度过长,导致算法性能不再随信息量的增多而提高,反而使算法效果降低。并且在拼接超级特征向量的时候,认为不同维度的信息特征是相互独立的,减弱了不同维度信息特征间的相互作用,甚至是忽略了他们之间的联系。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种用张量来表示媒体信息空间,从而可以将不同维度的信息和之间的相互关系纪录下来的方式,并基于媒体信息张量利用监督学习算法来捕捉互联网媒体与股票市场的波动关系,对股票市场进行预测。为达到上述目的,本专利技术的实施例采用如下技术方案:本专利技术实施例提供一种媒体信息张量监督学习方法,具体包括:S1、收集媒体信息;可选地,所述媒体信息包括市场交易信息、媒体新闻信息、股民情感信息;市场交易信息来自于公司的基本数据,如股票的交易价格、公司的规模、交易数量等信息,能从数据的角度反应公司目前的运作情况。新闻媒体信息来自于日常股票新闻,包含了公司基本情况的内容,能让投资者获取丰富的信息,全面了解公司的情况,包含消极或者积极的内容,容易影响投资者非理性投资。股民情感信息来自于股票论坛等社交媒体,通过社交媒体中的情感词来捕捉社会情绪。S2、构建n阶媒体信息张量x;S3、构建n阶张量监督学习算法的超平面函数f(χ)=χ×1a1×2a2...×nan+b;S4、基于媒体信息训练样本集求解超平面函数中的参数ak、b,其中k=1、2、…n;具体地,训练样本集为{{x1,y1},{x2,y2},...,{xN,yN}},张量数组{x1,x2,...,xN}为媒体信息训练样本集;训练样本集对应的目标值为{y1,y2,...,yN},N为样本数。可选地,求解ak、b,其中k=1、2、...n的步骤为:S41、设置m=0;S42、m=m+1;S43、令βk,k≠m=||ak||2,S44、通过计算am;其中,为目标函数,为约束条件;C为惩罚因子,ε为误差,ξ为松弛变量;S45、判断问题是否收敛,若是则执行步骤S46,若不是,则执行步骤S42;S46、输出:ak、b,其中k=1、2、...n,惩罚因子C,误差ε。S5、基于计算的超平面函数f(χ)=χ×1a1×2a2...×nan+b对股票波动进行预测。下面通过实施例对二阶张量的监督学习算法进行具体说明:张量监督学习算法的目标就是求解和之间的存在的对应关系,也是求解一个关于高阶张量样本的回归问题。令其损失函数为ε不敏感损失函数,即预测值与真实值之间的误差参数为ε,也就是f(x)预测值与真实值之差小于ε时可以忽略不计。设张量的二阶张量,向量目标值令其张量监督学习算法的回归函数为f(x)=uTxv+b,通过张量的内积计算,转换后f(x)=<x,uvT>+b通过||uvT||保证回归函数的泛化能力,||uvT||值越小回归函数的泛化能力就越强。同时通过f(x)与y的差值让尽可能多的样本离回归函数更近,降低其经验风险。张量监督学习算法满足结构风险最小原则。构建张量回归问题如下:在张量样本中同样存在一些异常点不满足条件,异常点的出现会影响回归函数的整体效果,因此引入松弛变量ξ和惩罚因子C对异常点进行处理。引入异常点后,其张量回归问题如下:C值越大则松弛变量在目标问题中所占比重越大,异常点付出的成本就越多,回归函数允许出现的异常点就更少,反之亦然。求解未知数u,v,b:引入拉格朗日因子,把张量回归问题进行如下转换:其中,为拉格朗日乘子;由于把该等式带入拉格朗日函数得:分别对未知数求导有:C-αi-ηi=0,i=I…n向量u和向量v的值是相互联系相互依存的,u的值会随着v的值变化而变化;用以下循环迭代求解方法对其进行求解:对张量x进行降阶,令向量u为单位向量,即u=(1,1,...,I)T。二阶张量(矩阵)x通过u进行降阶,设向量常数β1=||u||2,由此张量回归问题可以化解为:张量回归问题通过转换由张量降阶为向量,其变成了支持向量回归算法的目标问题,用求解支持向量回归机算法的方法求解。计算得到向量v后,同理用v对张量x进行降阶,令常数β2=||v||2。张量回归问题为:求解出u,如此循环迭代求解,直至目标函数收敛为止。对于三阶张量或者n阶张量,同样可以对张量进行降阶用循环迭代方法进行求解。首先令向量a1、a2…an中有n-1个向量为单位向量,用其对n阶张量进行降阶转化为向量问题,随后用支持向量回归算法求解。本专利技术将张量理论、机器学习算法应用于股票市场,实现了基于向量的机器学习算法向张量的拓展,同时通过张量对媒体信息空间的表示,分析了不同维度的信息间的相互作用,更全面的反应互联网媒体信息对股票市场的影响。构建张量监督学习算法的目标函数,首先对张量降阶回归为向量,然后由支持向量机的求解理论进行求解。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的步骤框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术基于监督学习方法,尤其基于基于媒体丈量监督学习方法对股票波动进行预测。下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。S1、收集媒体信息;可选地,所述媒体信息包括市场交易信息、媒体新闻信息、股民情感信息;市场交易信息来自于公司的基本数据,如股票的交易价格、公司的规模、交易数量等信息,能从数据的角度反应公司目前的运作情况。新闻媒体信息来自于日常股票新闻,包含了公司基本情况的内容,能让投资者获取丰富的信息,全面了解公司的情况,包含消极或者积极的内容,容易影响投资者非理性投资。股民情感信息来自于股票论坛等社交媒体,通过社交媒体中的情感词来捕捉社会情绪。S2、构建n阶媒体信息张量x;S3、构建n阶张量监督学习算法的超平面函数f(χ)=χ×1a1×2a2...×nan+b;S4、基于媒体信息训练样本集求解超平面函数中的参数ak、b,其中k=1、2、...n;具体地,训练数据集为{{x1,y1},{本文档来自技高网...
媒体信息张量监督学习方法

【技术保护点】
一种媒体信息张量监督学习方法,其特征在于:它包括如下步骤:S1、收集媒体信息;S2、构建n阶媒体信息张量x;S3、构建n阶张量监督学习算法的超平面函数f(χ)=χ×1a1×2a2...×nan+b;S4、基于媒体信息训练样本集求解超平面函数中的参数ak、b,其中k=1、2、…n;S5、基于计算的超平面函数f(χ)=χ×1a1×2a2...×nan+b对股票波动进行预测。

【技术特征摘要】
1.一种媒体信息张量监督学习方法,其特征在于:它包括如下步骤:S1、收集媒体信息;S2、构建n阶媒体信息张量x;S3、构建n阶张量监督学习算法的超平面函数f(χ)=χ×1a1×2a2...×nan+b;S4、基于媒体信息训练样本集求解超平面函数中的参数ak、b,其中k=1、2、…n;S5、基于计算的超平面函数f(χ)=χ×1a1×2a2...×nan+b对股票波动进行预测。2.根据权利要求1所述的媒体信息张量监督学习方法,其特征在于:所述媒体信息包括市场交易信息、媒体新闻信息、股民情感信息。3.根据权利要求1所述的媒体信息张量监督学习方法,其特征在于:所述步骤S4中求解ak、b,其中k=1、2、…n的步骤为:S41、设置m=0;S42、m=m+1;S43、令βk,k≠m=||ak||2,S44、通过计算am;其中,为目标函数,为约束条件;C为惩罚因子,ε为误差,ξ为松弛变量;S45、判断问题是否收敛,若是则执行步骤S46,若不是,则执行步骤S42;S46、输出:ak、b,其中k=1、2、…n,惩罚因子C,误差ε。4.根据权利要求3所述的媒体信息张量监督学习方法,其特征在于:所述目标函数及所述约束条件的构建过程为:当张量为二阶张量时,令其张量监督学习算法的回归函数为f(x)=uTxv+b,通过张量的内积计算,转换后f(x)=〈x,uvT〉+b;其中,向量目标值通过||uvT||保证回归函数的泛化能力,构建张量回归问题如下:引入松弛变量ξ和惩罚因子C对异常点进行处理,引入异常点后,其张量回归问题如下:其中,C值越大则松弛变量在目标问题中所占比重越大,异常点付出的成本就越多,回归函数允许出现的异常点就更少,反之亦然。5.根据权利要求4所述的媒体信息张量监督学习方法,其特征在于:求解所述u,v,b的步骤为:引入拉格朗日因子,张量回归问题转换为:

【专利技术属性】
技术研发人员:李庆蒋李灵
申请(专利权)人:西南财经大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1