舆情指数的预测方法及装置、计算机设备和可读存储介质制造方法及图纸

技术编号:19905262 阅读:22 留言:0更新日期:2018-12-26 03:28
本申请涉及一种舆情指数的预测方法,该预测方法包括:获取股票舆情信息;对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;根据所述标注词序列和所述词性特征序列,得到词向量序列;将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。该舆情指数的预测方法可以辅助用户对未来股票的价格做出预测,提高了用户预测的准确性。本申请还涉及一种舆情指数的预测装置、计算机设备和计算机可读存储介质。

【技术实现步骤摘要】
舆情指数的预测方法及装置、计算机设备和可读存储介质
本申请涉及信息处理
,特别是涉及一种舆情指数的预测方法及装置,计算机设备和计算机可读存储介质。
技术介绍
现如今,金融投资已经逐渐成为普通用户理财的一个手段,比如,用户可通过股票交易的方式进行理财。然而,由于大多数用户都是散户,不像金融机构那么专业,并且也没有相关的技术手段可以辅助他们决策,因此很多时候他们买卖股票时,都是依靠自己的主观意愿看K线图涨跌。在目前市场上存在的金融类产品中,只有关于股票价格的K线图,导致用户在选择股票来投资的分析过程中,只能通过分析以往冰冷的交易数据来对股票未来的价格做出预测。然而,采用上述方法导致用户预测的准确性较低,使得用户投资存在很大的风险。
技术实现思路
基于此,有必要针对上述用户预测的准确性较低的问题,提供一种能辅助用户预测,并提高预测准确性的舆情指数的预测方法及装置、计算机设备和计算机可读存储介质。一种舆情指数的预测方法,所述预测方法包括:获取股票舆情信息;对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;根据所述标注词序列和所述词性特征序列,得到词向量序列;将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。在其中一个实施例中,所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数的步骤之后包括:获取所述股票对应的历史舆情指数;根据所述股票舆情指数和所述历史舆情指数绘制股票舆情K线图。在其中一个实施例中,所述对所述股票舆情信息进行分词,得到初始词序列的步骤包括:获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。在其中一个实施例中,所述对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列的步骤包括:对所述初始词序列进行词性标注,得到初始词性特征序列;获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。在其中一个实施例中,所述根据所述标注词序列和所述词性特征序列,得到词向量序列的步骤包括:根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;对所述标准词序列中的分词词语进行向量化,得到词向量序列。在其中一个实施例中,所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数的步骤包括:对所述词性特征序列进行组合,得到句子层面特征;对所述句子层面特征进行汇整,得到篇章层面特征;将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数。在其中一个实施例中,所述对所述股票舆情信息进行分词,得到初始词序列的步骤包括:对所述股票舆情信息进行分词,得到第一词序列;对所述第一词序列进行序列标注,得到标注词序列;对所述标注词序列进行离线处理,得到所述初始词序列。在其中一个实施例中,所述将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数的步骤之前包括:获取每一只股票对应的舆情信息样本;对所述舆情信息样本进行分词,得到初始词序列样本,所述初始词序列样本包括至少一个分词词语;对所述初始词序列样本进行词性标注,得到词性特征序列样本以及与所述词性特征序列样本对应的标注词序列样本;根据所述词性特征序列样本抽取所述标注词序列样本中的关键词样本,并根据所述关键词样本对所述标注词序列样本去重,得到标准词序列样本;对所述标准词序列样本中的分词词语进行向量化,得到词向量序列样本;根据所述词向量序列样本和所述词性特征序列样本得到所述舆情模型。一种舆情指数的预测装置,所述预测装置包括:获取模块,用于获取股票舆情信息;分词模块,用于对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;词性标注模块,用于对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;向量化模块,用于根据所述标注词序列和所述词性特征序列,得到词向量序列;打分模块,用于将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。上述舆情指数的预测方法及装置、计算机设备及计算机可读存储介质,通过对股票舆情信息进行分词、词性标注,得到对应的词性特征序列以及标注词序列。进一步对标注词序列进行向量化得到词向量序列,根据词向量序列和词性特征序列得到股票舆情指数。由于考虑到股票舆情信息的重要性,通过对股票舆情信息进行量化并对该股票舆情信息打分,进而根据股票舆情指数的高低来帮助用户分析股票的行情,实现了为用户提供更为可靠的实时参考数据,来辅助用户对未来股票的价格做出预测,提高了用户预测的准确性,同时也可以为专业人士提供参考,节省他们分析相关新闻舆情的时间。附图说明图1为一实施例中舆情指数的预测方法的应用场景架构示意图;图2为一实施例中舆情指数的预测方法的流程示意图;图3为另一实施例中舆情指数的预测方法的流程示意图;图4为一实施例中根根据金融种子词获取初始词序列的流程示意图;图5为一实施例中根据词性特征序列得到股票舆情指数的流程示意图;图6为一实施例中根据股票舆情信息得到初始词序列的流程示意图;图7为一实施例中舆情模型的获取方法的流程示意图;图8为一实施例中舆情指数的预测装置的结构框图;图9为一实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的舆情指数的预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。该服务器104可以提供相应的面向用户的网页平台,并且可以将股票舆情指数发送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。请参阅图2,本申请一实施例提供了一种舆情指数的预测方法,本实施例以所述方法应用于图1中的服务器104为例进行说明。该预测方法具体包括以下步骤:S202,获取股票舆情信息。其中,股票舆情信息包括与股票相关的舆情信息,比如,股票舆情信息包括金融资讯文章(如收集站内股票资讯文章、爬本文档来自技高网...

【技术保护点】
1.一种舆情指数的预测方法,其特征在于,所述预测方法包括:获取股票舆情信息;对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;根据所述标注词序列和所述词性特征序列,得到词向量序列;将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。

【技术特征摘要】
1.一种舆情指数的预测方法,其特征在于,所述预测方法包括:获取股票舆情信息;对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;根据所述标注词序列和所述词性特征序列,得到词向量序列;将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。2.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数的步骤之后包括:获取所述股票对应的历史舆情指数;根据所述股票舆情指数和所述历史舆情指数绘制股票舆情K线图。3.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述对所述股票舆情信息进行分词,得到初始词序列的步骤包括:获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。4.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列的步骤包括:对所述初始词序列进行词性标注,得到初始词性特征序列;获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。5.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述根据所述标注词序列和所述词性特征序列,得到词向量序列的步骤包括:根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;对所述标准词序列中的分词词语进行向量化,得到词向量序列。6.根据权利要求1所述的舆情指数的预测方法,其特征在于,所...

【专利技术属性】
技术研发人员:邓江东李磊马维英
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1