基于股票评论数据的数据挖掘方法和装置制造方法及图纸

技术编号:20274123 阅读:37 留言:0更新日期:2019-02-02 04:14
本发明专利技术公开了一种基于股票评论数据的数据挖掘方法和装置,该方法包括:获取股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;以及,基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息。本发明专利技术融合了多种异构信息源,例如股票价格时序、股评文本内容以及发表股评的股票评论员的历史行为,基于该多源异构大数据,借助数据挖掘技术深入分析并提取关键特征,利用这些特征进行股评可靠性度量,从而从海量信息中精选出优质股票,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。

【技术实现步骤摘要】
基于股票评论数据的数据挖掘方法和装置
本专利技术涉及人工智能和大数据领域,具体涉及一种基于股票评论数据的数据挖掘方法、装置、电子设备和计算机可读存储介质。
技术介绍
投资者通常会利用搜索引擎寻找相关价值信息帮助其最终决策,而这些决策过程大部分是依靠人的分析判断以及经验。事实上,互联网中的股票评论数据包含了丰富且有价值的语义信息,能够帮助投资者理解市场走势以及股票动态。已有的股评分析方法通常仅仅聚焦在捕获股评的情感极性,从而理解股评对于市场走势的宏观作用。然而,互联网中的股评往往包含了大量的噪声,如水军以及个人主观倾向从众心理等,从而严重地影响投资者的判断。因此利用人工智能技术对股评信息进行细粒度权威性分析,进而自动地为股民和股票分析师从海量信息中精选优质股票是非常有意义的。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于股票评论数据的数据挖掘方法、装置、电子设备和计算机可读存储介质。依据本专利技术的一个方面,提供了一种基于股票评论数据的数据挖掘方法,该方法包括:获取股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;以及,基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息。可选地,该方法在获取股票评论数据的步骤之后还包括股票评论数据清洗的步骤,具体包括:删除观点极性为中立的股票评论数据;和/或,删除长度小于预设阈值的股票评论序列所对应的股票评论数据;其中,股票评论序列是指同一评论员在不同时间对同一股票进行评论的股票评论数据的组合。可选地,一条股票评论数据包括:股票评论员标识、评论时间、目标股票、包含观点极性的内容。可选地,所述基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息包括如下中的一种或多种:基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的股票评论数据的概率。可选地,所述基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息包括:根据不同股票的价格时序信息,确定所获取的股票评论数据中的同一个股票评论员针对不同股票的所有历史股票评论数据中的每一条股票评论数据的正确与否;根据一个股票评论员的正确的股票评论数据数量和错误的股票评论数据数量,确定该股票评论员的观点可靠性分布。可选地,该方法进一步包括:基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;基于提取的股评数据对,统计该股票评论员保持观点的概率和改变观点的概率。可选地,该方法进一步包括:基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;基于提取的股评数据对,确定该股票评论员在观点正确的前提下改变观点的概率TSRatio,以及确定该股票评论员在观点错误的前提下改变观点的概率FSRatio。可选地,该方法进一步包括:基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;基于提取的股评数据对,确定该股票评论员在观点正确的前提下保持观点,且保持的观点正确的概率TCTRatio,以及确定该股票评论员在观点正确的前提下改变观点,且改变的观点正确的概率TSTRatio;基于提取的股评数据对,确定该股票评论员在观点错误的前提下保持观点,且保持的观点正确的概率FCTRatio,以及确定该股票评论员在观点错误的前提下改变观点,且改变的观点正确的概率FSTRatio。可选地,该方法进一步包括:接收关于股票评论员的指定观点信息查询请求;输出与该查询请求对应的结果数据。根据本专利技术的另一个方面,提供了一种基于股票评论数据的数据挖掘装置,该装置包括:获取单元,适于获取股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;挖掘单元,适于基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;以及,适于基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息。可选地,该装置还包括:数据清洗单元,适于从所获取的股票评论数据中删除观点极性为中立的股票评论数据;和/或,适于从从所获取的股票评论数据中删除长度小于预设阈值的股票评论序列所对应的股票评论数据;其中,股票评论序列是指同一评论员在不同时间对同一股票进行评论的股票评论数据的组合。可选地,一条股票评论数据包括:股票评论员标识、评论时间、目标股票、包含观点极性的内容。可选地,所述挖掘单元,适于执行如下中的一种或多种:基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的股票评论数据的概率。可选地,所述挖掘单元,适于根据不同股票的价格时序信息,确定所获取的股票评论数据中的同一个股票评论员针对不同股票的所有历史股票评论数据中的每一条股票评论数据的正确与否;并根据一个股票评论员的正确的股票评论数据数量和错误的股票评论数据数量,确定该股票评论员的观点可靠性分布。可选地,所述挖掘单元,进一步适于基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;以及适于基于提取的股评数据对,统计该股票评论员保持观点的概率和改变观点的概率。可选地,所述挖掘单元,进一步适于基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;以及适于基于提取的股评数据对,确定该股票评论员在观点正确的前提下改变观点的概率TSRatio,以及确定该股票评论员在观点错误的前提下改变观点的概率FSRatio。可选地,所述挖掘单元,进一步适于基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;适于基于提取的股评数据对,确定该股票评论员在观点正确的前提下保持观点,且保持的本文档来自技高网...

【技术保护点】
1.一种基于股票评论数据的数据挖掘方法,其中,该方法包括:获取股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;以及,基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息。

【技术特征摘要】
1.一种基于股票评论数据的数据挖掘方法,其中,该方法包括:获取股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;以及,基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息。2.如权利要求1所述的方法,其中,该方法在获取股票评论数据的步骤之后还包括股票评论数据清洗的步骤,具体包括:删除观点极性为中立的股票评论数据;和/或,删除长度小于预设阈值的股票评论序列所对应的股票评论数据;其中,股票评论序列是指同一股票评论员在不同时间对同一股票进行评论的股票评论数据的组合。3.如权利要求1所述的方法,其中,一条股票评论数据包括:股票评论员标识、评论时间、目标股票、包含观点极性的内容。4.如权利要求1所述的方法,其中,所述基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息包括如下中的一种或多种:基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的...

【专利技术属性】
技术研发人员:王浩张晨庞旭林杜长营杨康
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1