一种基于新闻语料的行情预测方法技术

技术编号:19388821 阅读:26 留言:0更新日期:2018-11-10 02:00
本发明专利技术公开了一种基于新闻语料的行情预测方法,包括以下步骤:S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量;S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率行情。通过本技术方案,能够提高市场情绪计算效率和准确率,从而实现更准确的行情预测。

A prediction method of market based on news corpus

The invention discloses a news corpus-based market forecasting method, which comprises the following steps: S1: obtaining news corpus information and preprocessing the news corpus information; S2: according to the news corpus information obtained from S1 processing, the first step is constructed in the form of two-dimensional information dimension including news subject and subject attitude. Feature tensor, combined with the preset keyword dictionary, obtains the second characteristic tensor; S3: extracts the emotional information according to the second characteristic tensor, and then calculates the public opinion factor alpha through several emotional information; S4: obtains the corresponding lagged T-period yield RT according to the obtained public opinion factor alpha, and predicts the future return market. Through this technical scheme, the efficiency and accuracy of market sentiment calculation can be improved, so as to achieve more accurate market forecasting.

【技术实现步骤摘要】
一种基于新闻语料的行情预测方法
本专利技术涉及信息处理
,尤其涉及一种基于新闻语料的行情预测方法。
技术介绍
在金融投资市场,行情的涨落由参与其中的每个交易者的买卖决策左右,交易者的买卖决策与其自身对金融标的的价值判断、全体交易者营造的市场情绪、市场资金流动性等因素息息相关。而对于一些炒作频繁的市场或价值不明朗的新兴市场,金融标的的内在价值可能经常背离市场价格,甚至其内在价值本身很难被准确估计,而新闻舆情主导的市场情绪往往会加剧价格的剧烈波动。现有的一些基于量价信息的技术分析手段和基于财报等数据的基本面分析无法对市场情绪主导的波动做出预测。目前利用自然语言处理对新闻舆情进行情绪判断的研究越来越多,目前主要的判断算法有以下几种:一、根据语料的全部词汇(或词干词汇)及词频构建特征张量,利用一部分历史语料和人工标记的情绪指标训练有监督机器学习模型(例如朴素贝叶斯,逻辑回归,支持向量机,随机森林等等),将未判断语料带入训练好的模型给出情绪指标。二、利用情绪词典,即对单个词汇赋予情绪量化值的词典,识别语料中相应词汇并赋予情绪值,对整个句子给出一个综合情绪判断。但这些现有技术存在以下缺点:一方面,传统的金融市场投资方法缺乏对市场情绪的量化测量,缺乏利用市场情绪因子来预测市场未来走势的手段。另一方面,市场情绪量化度量的方法发展缓慢,现有的语料情绪判断方法中,可能由于特征张量是非常庞大的稀疏矩阵,导致运算起来速度很慢,并且对复杂信息的情绪特征提取能力比较弱,无法有效地排除一些噪音。或者在反映特定的市场情绪方面还不够灵活。因此,如何能够利用新闻语料,结合考虑特定市场的宏观影响维度,提高情绪计算效率和预测准确度,在此基础上对市场行情走势进行短期预判,是相关领域需要解决的技术问题之一。
技术实现思路
为了克服现有技术的不足,本专利技术所解决的技术问题是提供一种能够利用新闻语料的处理,提高市场情绪计算效率和准确率,从而实现行情预测的方法。为解决上述技术问题,本专利技术所采用的技术方案内容具体如下:一种基于新闻语料的行情预测方法,包括以下步骤:S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量;S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率的波动范围。在本技术方案中,专利技术人一方面通过包括新闻主体和主体态度的新闻语料信息构建第一特征张量;另一方面对于构建第一特征张量利用关键词等处理方法得到第二特征张量,再形成情绪信息;通过这两方面可以使得新闻语料的处理以及市场情绪计算效率和准确率得到提高,还可以达到提高预测准确率的进一步技术目的。优选地,所述关键词词典的建立方式是利用历史语料或人工操作获取形成。需要说明的是,所述关键词词典可以通过预设的方式实现,可以提高后续判断处理步骤的效率,在一些具体的实施方式中,关键词的输入可以是利用历史语料获取形成或者是人工输入形成。优选地,所述S1还包括词典更新步骤,所述词典更新步骤包括:更新分词词典、干扰词词典、关键词词典中的至少一种。需要说明的是,在一些实施方式中,通过对分词词典和/或干扰词词典和/或关键词词典进行更新,可以使得处理准确率更高。优选地,所述S1中的预处理步骤按顺序包括:S11:对比去重,利用字符串相似度算法测量最近一定时间内两个字符串的相似度,若所述相似度大于预设阈值,则视为重复,删除其中一字符串;S12:将所述新闻语料信息中的中文字统一转换成简体中文或繁体中文;将所述新闻语料信息中的英文字符统一转换成大写或小写;S13:对所述新闻语料信息进行分词;S14:依据所述干扰词词典中的词语排除干扰词。需要说明的是,在上述步骤中:删除重复字符串,可以减少干扰,提高后续运算的速度;通过对所述新闻语料信息进行分词,能够进一步提高后续处理的效率,提高计算效率;通过对所述新闻语料进行繁简、大小写统一,可以提高分词效率,避免语义相同的词汇由于格式问题被区分对待。依据所述干扰词词典中的词语排除干扰词,可以进一步提高本技术方案处理的准确率,提高计算准确率;繁简转换和大小写同一转换,同样可以便于后续的匹配和处理,提高运算速度。需要说明的是,先对比去重再进行后续步骤,可以第一时间排除重复信息,减少重复计算,提高计算效率;在分词之前进行繁简、大小写统一可以提高分词效率,对繁简、大小写不加以区分,避免语义相同的词汇由于格式问题被区分对待;排除干扰词必须在分词之后才能进行。优选地,所述S1中的S11之前或之后还包括:S10:去除空白及干扰字符。优选地,所述S1中的S14之前或之后还包括:S15:去除停止词。需要说明的是,在一些实施方式中,还可以利用以上一种或多种方式对新闻语料信息进行处理,这些方式均能够为后续处理步骤提高效率和准确率。优选地,所述第一特征张量的构建方法包括:获取所述新闻语料信息,并将所述新闻语料信息划分成新闻主体和主体态度;构建所述第一特征张量为其中D1=[d11,d12,...,d1i]表示新闻主体向量,表示主体态度向量,向量中的每个元素d代表一个新闻主体或者主体态度;此过程还包括建立新闻主体和主体态度的对应关系M1={d1i:[d2*]}和M2={d2j:[d1*]},其中d2*表示D2中的一个或多个元素;d1*表示D1中的一个或多个元素;即一个新闻主体可以包含一个或若干个主体态度,一个主体态度可以属于一个或若干个新闻主体。需要说明的是,将新闻语料信息划分成新闻主体和主体态度,具有将分析师结合市场宏观背景的思考逻辑融入特征提取以提高预测准确度和应对不同市场环境的灵活性的有益效果;另外,构建第一特征张量,其有益效果在于降低信息熵,提高计算效率。进一步地,建立主体态度之间的矛盾关系和层级关系。矛盾关系是指相关词汇是否存在语义相反的关系。层级关系由反映同一类态度的情绪程度高低决定,代表了相似语义不同程度的关系。在一些实施方式中,所述关键词词典包括若干组“关键词+从属词汇”,使得所述第一特征张量中的每一个元素d都能在所述关键词词典中找到唯一的一组对应“关键词+从属词汇”。需要说明的是,在每一组中,所述关键词代表所述第一特征张量中的一个新闻主体或主体态度,所述从属词汇指可以用来识别该新闻主体或主体态度的词汇。更优选地,所述第二特征张量的构建方法包括:从预设的关键词词典中获取关键词,并对向量中的每一个元素d分别判断其是否含有关键词中的任意一个;若是则对该元素赋值1,否则对该元素赋值0;得到一个由0,1构成的二维特征张量。需要说明的是,通过对元素进行1,0的赋值,使得二维特征张量由0,1构成,这个方案的有益技术效果在于提高计算效率。进一步地,所述第二特征张量的构建方法还包括干扰消除:找到所述第一特征张量中D1中每个元素d1i在M1中包含的[d2*],判断[d2*]中是否至少有一个元素值为1,若都为0,则将所述d1i赋值为0;找到所述第一特征张量中D2中每个元素d2j在M2中包含的[d1*],判断[d1*]中是否至少有一个元素值为1,若都为0,则将所述d2j赋本文档来自技高网
...

【技术保护点】
1.一种基于新闻语料的行情预测方法,其特征在于,包括以下步骤:S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量;S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率的波动范围。

【技术特征摘要】
1.一种基于新闻语料的行情预测方法,其特征在于,包括以下步骤:S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量;S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率的波动范围。2.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述关键词词典的建立方式是利用历史语料或人工操作获取形成。3.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述S1还包括词典更新步骤,所述词典更新步骤包括:更新分词词典、干扰词词典、关键词词典中的至少一种。4.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的预处理步骤按顺序包括:S11:对比去重,利用字符串相似度算法测量最近一定时间内两个字符串的相似度,若所述相似度大于预设阈值,则视为重复,删除其中一字符串;S12:将所述新闻语料信息中的中文字统一转换成简体中文或繁体中文;将所述新闻语料信息中的英文字符统一转换成大写或小写;S13:对所述新闻语料信息进行分词;S14:依据所述干扰词词典中的词语排除干扰词。5.如权利要求4所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的S11之前或之后还包括:S10:去除空白及干扰字符。6.如权利要求4所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的S14之前或之后还包括:S15:去除停止词。7.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述第一特征张量的构建方法包括:获取所述新闻语料信息,并将所述新闻语料信息划分成新闻主体和主体态度;构建所述第一特征张量为其中D1=[d11,d12,...,d1i]表示新闻主体向量,表示主体态度向量,向量中的每个元素d代表一个新闻主体或者主体态度;此过程还包括建立新闻主体和主体态度的对应关系M1={d1i:[d2*]}和M2={d2j:[d1*]},其中d2*表示D2中的一个或多个元素;d1*表示D1中的一个或多个元素;即一个新闻主体可以包含一个或若干个主体态度,一个主体态度可以属于一个或若干个新闻主体。8.如权利要求7所述的基于新闻语料的行情预测方法,其特征在于,所述关键词词典包括若干组“关键词+从属词汇”,使得所述第一特征张量中的每一个元素d都能在所述关键词词典中找到唯一的一组对应“关键词+从属词汇”。9.如权利要求8所述的基...

【专利技术属性】
技术研发人员:曹一新徐照晔吴小川
申请(专利权)人:众安信息技术服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1