【技术实现步骤摘要】
一种基于业务内容的新闻与股票关联方法
[0001]本专利技术涉及自然语言处理
;特别涉及一种基于业务内容的新闻与股票关联方法。
技术介绍
[0002]科学有效的股票市场“智能”预测方法不仅可以为交易监管机构制定稳定金融市场的政策提供基本信息,同时也为投资者获利和避免风险提供了一个重要参数。然而股票价格波动率取决于诸多因素,除公司自身经营状况外,还有股票政策、自然灾害等突发事件。与此同时,突发事件对股价的影响又是巨大的,但针对该问题当前的股价预测研究尚未取得较好解决方法。此外,在众多“智能”或人工预测方法中根据重大突发事件快速有效的锚定与事件相关的股票又是解决该难题的基础问题。
[0003]与此同时,当前新闻与股票的关联方法,大都采用新闻中提及某公司或某类公司特征的方法。而此类方法往往只能在股价已经发生变化或走势已为大众所熟知后才能得知,此时再为投资者获利和避免风险或监管机构制定策略提供参考已错过最佳时机。此外,此类方法也存在颗粒度较大的问题,导致只能挖掘出某一类与新闻关联性较强的股票或新闻中提及的少数几支股票。 ...
【技术保护点】
【技术特征摘要】
1.一种基于业务内容的新闻与股票关联方法,其特征在于:包括以下步骤:S1:爬取2021年A股所有上市公司年报摘要版和至少一条新闻;S2:截取所有公司年报的“报告期内主要业务或产品简介”章节部分文本,随后对文本进行分词处理,获得分词后的公司业务内容文本;S3:利用自建的金融停用词库筛除无关词汇;S4:改进的词频
‑
逆文件频率算法(TF
‑
IDF)提取所有上市公司的业务内容关键字,并对其进行排序,保留排名前20的关键字;S5:对新闻进行分词,随后用所有上市公司的关键字与新闻进行匹配,选取匹配词汇个数超过5个的公司为与新闻关联的股票。2.根据权利要求1所述的。一种基于业务内容的新闻与股票关联方法,其特征在于:在所述S2中,所诉获取分词后的公司业务内容文本部分,因部分文本为无效文本需对文本进行筛选,在筛选有效年报后,最终获取4298家上市公司的业务内容作为实验数据。具体筛选步骤如下:S201:删除重复,以及带有更正后、修订版字样的年报;S202:对用pdfplumber包将pdf文件转换为txt文件失败,导致jieba分词后,业务内容文本词汇数量小于20个的公司进行剔除。3.根据权利要求1所述的一种基于业务内容的新闻与股票关联方法,其特征在于:在所述S3中,所述自建金融停用词库的构建来源于三部分:S301:将常用的通用词表导入库中,如百度、哈工大停用词表;S302:使用同一行业的多家公司的业务内容的关键字进行匹配,将在同一业中出现频率过低的词汇加入库中;S303:将最后与新闻匹配的公司业务内容关键词汇匹配的效果不好的词汇加入词库中。4.根据权利要求3所述的一种基于业务内容的新闻与股票关联方法,其特征在于:在所述S302中,所述同一行业的多家公司的业务内容的关键字进行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。