【技术实现步骤摘要】
本专利技术涉及基于海量文本的实体关联分析方法,尤其涉及一种基于新闻语料的金融概念对应股票关联方法及其装置。
技术介绍
目前,社会上出现热点事件时,人们通常会形成一套对热点事件的固定用词,比如,柴静拍摄的纪录片《穹顶之下》在网络上播出后,“柴静”、“穹顶之下”就成为该事件的相关热点词。通常股票容易受到社会突发事件的影响,使其股价发生波动,此类与热点事件相关的个股常称为概念成分股。现有主要通过行业分析师撰写相关领域股票的分析文章,以获得热点词与概念成分股之间的关联。但人工分析存在以下问题,一是存在主观因素,不同分析师针对同一热点事件,给出的概念成分股难以完全一致;二是金融概念涉及社会生产的方方面面,热点事件对应的概念不断涌现,人工分析要想实现全面掌握,工作量巨大。
技术实现思路
本专利技术的目的在于提供一种基于新闻语料的金融概念对应股票关联方法及其装置,该发明解决了现有技术中依靠人工获取与某一金融概念相关的股票时,工作量巨大,准确性一致性较差的技术问题。本专利技术提供一种基于新闻语料的金融概念对应股票关联方法,包括:步骤S100:对经过清洗的新闻语料进行分词,得到分词文档;步骤S200:获取分词文档的子句中金融概念Ci词的出现频次count(Ci)、股票Aj词的出现频次count(Aj)以及金融概念Ci词和股票Aj词同时出现的频次count(Ci,Aj),其中i为任一金融概念,j为任一股票;步骤S300:按式一计 ...
【技术保护点】
一种基于新闻语料的金融概念对应股票关联方法,其特征在于,包括:步骤S100:对经过清洗的所述新闻语料进行分词,得到分词文档;步骤S200:获取所述分词文档的子句中所述金融概念Ci词的出现频次count(Ci)、所述股票Aj词的出现频次count(Aj)以及所述金融概念Ci词和所述股票Aj词同时出现的频次count(Ci,Aj),其中i为任一所述金融概念,j为任一所述股票;步骤S300:按式一计算得到所述金融概念Ci和所述股票Aj的共现关联度Dij,Dij=count(Ci,Aj)count(Ci)+count(Aj)]]> 式一。
【技术特征摘要】
1.一种基于新闻语料的金融概念对应股票关联方法,其特征在于,包括:
步骤S100:对经过清洗的所述新闻语料进行分词,得到分词文档;
步骤S200:获取所述分词文档的子句中所述金融概念Ci词的出现频次count(Ci)、所
述股票Aj词的出现频次count(Aj)以及所述金融概念Ci词和所述股票Aj词同时出现的频
次count(Ci,Aj),其中i为任一所述金融概念,j为任一所述股票;
步骤S300:按式一计算得到所述金融概念Ci和所述股票Aj的共现关联度Dij,
D i j = c o u n t ( C i , A j ) c o u n t ( C i ) + c o u n t ( A j ) ]]>式一。
2.根据权利要求1所述的基于新闻语料的金融概念对应股票关联方法,其特征在于,所述新
闻语料为从新闻网站财经频道获取的最近一个月内的财经新闻语料。
3.根据权利要求2所述的基于新闻语料的金融概念对应股票关联方法,其特征在于,所述子
句通过以下步骤获得:
步骤S210:依据句尾终结符对所述文档进行分句,得到分句文档;
步骤S220:依据句中分隔符将所述分句文档的句子分为多个子句。
4.根据权利要求1~3中任一项所述的基于新闻语料的金融概念对应股票关联方法,其特征在
于,所述S300还包括以下步骤:
步骤S310:按式二计算对所述金融概念Ci归一化其与所述股票Aj的第一归一关联度
D ‾ i j 1 = D i j max k D i k ]]>式二
其中Dij为所述共现关联度,maxkDik为股票库k与所述金融概念Ci的最大关联度
值;
按式三计算对所述股票Aj归一化其与所述金融概念Ci的第二归一关联度 D ‾ i j 2 = D i j max l D l j ]]>式三
其中Dij为所述共现关联度,maaxiDij为金融概念库l与所述股票Aj的最大关联度值;
按式四计算所述金融概念与所述股票之间的对称关联度 D ^ i j = 1 / 2 × ( D ‾ i j 1 + D ‾ i j 2 ) ]]>式四
其中为第一归一关联度,为第二归一关联度;
步骤S320:判断所述对称关联度,当其大于0.8时,所述股票为所述金融...
【专利技术属性】
技术研发人员:陈发君,黄金才,刘忠,程光权,朱承,修保新,陈超,冯旸赫,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。