一种实现财经新闻自动关联到股票的方法技术

技术编号:18458683 阅读:26 留言:0更新日期:2018-07-18 12:39
本发明专利技术公开一种实现财经新闻自动关联到股票的方法,包括:采用标注数据和待处理数据的方式,处理原始财经新闻信息;预处理该原始财经新闻信息,包括将该原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式等;采用多标签分类模型的方式,深度学习该经预处理后的财经新闻信息;应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系;从而达到实现可以结合分词方式、深度学习方式,实现高准确度的自动将原始财经新闻信息关联到需要关联的股票,方便用户获取所关注股票的全方位信息。

A method to automatically link financial news to stock market

The invention discloses a method to automatically relate the financial news to the stock, which includes the use of the annotated data and the data to be processed to deal with the original financial news information, and preprocess the original financial news information, including the data form that converts the original financial information data to the subsequent depth of learning. The multi-dimensional vector form and so on; using the multi label classification model, the financial news information after the pre processing is studied deeply; the new financial information information is processed with the trained model, and the relationship between the financial news information and the stock is automatically related; thus the realization can be realized with the way of combining the word segmentation and the deep learning party. It realizes the high accuracy of automatically linking the original financial news information to the related stocks, so that users can get the omnidirectional information of the concerned stocks.

【技术实现步骤摘要】
一种实现财经新闻自动关联到股票的方法
本专利技术涉及股票
,尤其涉及一种实现财经新闻自动关联到股票的方法。
技术介绍
个股新闻,指的是关联到具体股票的财经新闻。自动关联,指的是从数据提供商得到的原始新闻未关联到股票或未充分关联到所有应当关联的股票或关联到了错误的股票,用程序策略自动增加/修正这种关联关系的过程称为自动关联。现有的财经新闻自动关联到股票的方案,包括:方案一,人工关联:通过人工判断增加/修正文章与股票关联,缺点是人力成本巨大。方案二,基于关键词关联:每只股票预设固定的几个关键词,例如股票名称可做为关键词,如果文章标题或内容出现相应关键词则视为有关联,本方案二的缺点在于:1、关键词靠人工维护,往往不完整;2、因为只是机械匹配,错误率会较高,例如易将“易联众(300096.SZ)”公司的新闻关联到“联众(06899.HK)”下。
技术实现思路
本专利技术提供一种实现财经新闻自动关联到股票的方法,用以解决现有技术存在的关键词靠人工维护,往往不完整,因为只是机械匹配,错误率较高的技术问题。为解决上述技术问题,本专利技术提供一种实现财经新闻自动关联到股票的方法,其特征在于,包括:采用标注数据和待处理数据的方式,处理原始财经新闻信息;预处理所述原始财经新闻信息,包括将所述原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式;采用多标签分类模型的方式,深度学习所述经预处理后的财经新闻信息;应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系。其中,所述预处理所述原始财经新闻信息,包括将所述原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式,包括:针对原始财经新闻信息,移除html标签:原始财经新闻信息一般而言是html文档,html标签对后续模型训练及应用都没有作用,故需移除掉;针对原始财经新闻信息,分词与去除停用词:分词后方便制作词典,去除停用词以便降低后续运算量;针对原始财经新闻信息,制作词典;将所述原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式。其中,所述针对原始财经新闻信息,移除html标签,包括:针对原始财经新闻信息,采用ES的htmlstrip-charfilter方式,移除html标签。其中,所述针对原始财经新闻信息,分词与去除停用词,包括:针对原始财经新闻信息,采用ES的ik分词器的方式,分词与去除停用词。其中,所述针对原始财经新闻信息,制作词典,包括:针对原始财经新闻信息,粗粒度筛选关键词;根据所述粗粒度筛选出的关键词,生成词典。其中,所述根据所述粗粒度筛选出的关键词,生成词典,包括:根据所述粗粒度筛选出的关键词,将筛选出的最终词汇表排序,每个词汇的序号作为所述词汇的数字代号,生成词汇到数字代号映射的词典。其中,所述采用多标签分类模型的方式,深度学习所述经预处理后的财经新闻信息,包括:采用多标签分类模型的方式,选择训练数据集;根据所述选择的训练数据集,对所述经预处理后的财经新闻信息进行PCA降维处理;根据所述经PCA降维处理后的财经新闻信息,采用深度学习分类模型的方式,深度学习所述财经新闻信息。其中,所述根据所述经PCA降维处理后的财经新闻信息,采用深度学习分类模型的方式,深度学习所述财经新闻信息,包括:根据所述经PCA降维处理后的财经新闻信息,采用深度学习分类模型的方式,采用全连接神经网络的方式,深度学习所述财经新闻信息。其中,所述应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系,包括:应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系,当关联度超过一定阈值,而原始数据源未标明这个关联关系,则补充上关联关系。其中,所述应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系,包括:应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系,当关联度低于一定阈值,而原始数据源却标明了对应关联关系,则删除此关联关系。本专利技术提供的实现财经新闻自动关联到股票的方法,包括:采用标注数据和待处理数据的方式,处理原始财经新闻信息;预处理该原始财经新闻信息,包括将该原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式等;采用多标签分类模型的方式,深度学习该经预处理后的财经新闻信息;应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系;从而达到实现可以结合分词方式、深度学习方式,实现高准确度的自动将原始财经新闻信息关联到需要关联的股票,方便用户获取所关注股票的全方位信息。附图说明图1为本专利技术实现财经新闻自动关联到股票的方法的流程示意图。具体实施方式下面结合附图和实施例,对本专利技术作进一步的详细描述。特别指出的是,以下实施例仅用于说明本专利技术,但不对本专利技术的范围进行限定。同样的,以下实施例仅为本专利技术的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术提供一种实现财经新闻自动关联到股票的方法。请参见图1,图1为本专利技术实现财经新闻自动关联到股票的方法的流程示意图,本专利技术实现财经新闻自动关联到股票的方法的方法,包括:S101:采用标注数据和待处理数据的方式,处理原始财经新闻信息。S102:预处理该原始财经新闻信息,包括将该原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式等。S103:采用多标签分类模型的方式,深度学习该经预处理后的财经新闻信息。S104:应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系。其中,预处理该原始财经新闻信息,包括将该原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式等,包括:针对该该原始财经新闻信息,移除html标签:原始财经新闻信息一般而言是html文档,html标签对后续模型训练及应用都没有作用,故需移除掉;针对该该原始财经新闻信息,分词与去除停用词:分词后方便制作词典,去除停用词以便降低后续运算量;针对该该原始财经新闻信息,制作词典;将该原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式等。其中,针对该该原始财经新闻信息,移除html标签,包括:针对该该原始财经新闻信息,采用ES的htmlstrip-charfilter方式,移除html标签。其中,针对该该原始财经新闻信息,分词与去除停用词,包括:针对该该原始财经新闻信息,采用ES的ik分词器的方式,分词与去除停用词。其中,针对该该原始财经新闻信息,制作词典,包括:针对该该原始财经新闻信息,粗粒度筛选关键词;根据该粗粒度筛选出的关键词,生成词典。其中,根据该粗粒度筛选出的关键词,生成词典,包括:根据该粗粒度筛选出的关键词,将筛选出的最终词汇表排序,每个词汇的序号作为该词汇的数字代号,生成词汇到数字代号映射的词典。其中,采用多标签分类模型的方式,深度学习该经预处理后的财经新闻信息,包括:采用多标签分类模型的方式,选择训练数据集;根据该选择的训练数据集,对该经预处理后的财经新闻信息进行PCA降维处理;根据该经PCA降维处理后的财经新闻信息,采用深度学习分本文档来自技高网...

【技术保护点】
1.一种实现财经新闻自动关联到股票的方法,其特征在于,包括:采用标注数据和待处理数据的方式,处理原始财经新闻信息;预处理所述原始财经新闻信息,包括将所述原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式;采用多标签分类模型的方式,深度学习所述经预处理后的财经新闻信息;应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系。

【技术特征摘要】
1.一种实现财经新闻自动关联到股票的方法,其特征在于,包括:采用标注数据和待处理数据的方式,处理原始财经新闻信息;预处理所述原始财经新闻信息,包括将所述原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式;采用多标签分类模型的方式,深度学习所述经预处理后的财经新闻信息;应用训练好的模型,对新的财经新闻信息进行处理,自动关联财经新闻信息与股票的关系。2.如权利要求1所述的实现财经新闻自动关联到股票的方法,其特征在于,所述预处理所述原始财经新闻信息,包括将所述原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式,包括:针对原始财经新闻信息,移除html标签:原始财经新闻信息一般而言是html文档,html标签对后续模型训练及应用都没有作用,故需移除掉;针对原始财经新闻信息,分词与去除停用词:分词后方便制作词典,去除停用词以便降低后续运算量;针对原始财经新闻信息,制作词典;将所述原始财经新闻信息数据转换为方便后续深度学习的数据形式包括多维向量形式。3.如权利要求2所述的实现财经新闻自动关联到股票的方法,其特征在于,所述针对原始财经新闻信息,移除html标签,包括:针对原始财经新闻信息,采用ES的htmlstrip-charfilter方式,移除html标签。4.如权利要求2所述的实现财经新闻自动关联到股票的方法,其特征在于,所述针对原始财经新闻信息,分词与去除停用词,包括:针对原始财经新闻信息,采用ES的ik分词器的方式,分词与去除停用词。5.如权利要求2所述的实现财经新闻自动关联到股票的方法,其特征在于,所述针对原始财经新闻信息,制作词典,包括:针对原始财经新闻信息,粗粒度筛选关键词;根据所述粗粒度筛选出的关键词,生成词典。6.如权利要求5所述...

【专利技术属性】
技术研发人员:侯红君陈文涛
申请(专利权)人:深圳市富途网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1