一种适于事件归因的上市公司知识图谱构建方法及装置制造方法及图纸

技术编号：20745406 阅读：35 留言：0更新日期：2019-04-03 10:26

本发明专利技术公开一种适于事件归因的上市公司知识图谱构建方法及装置，本装置用于实现本方法，本方法包括利用获取的上市公司的个股基本面信息及相关的个股历史新闻生成金融词典；利用获取的各上市公司相关的实时新闻生成实时新闻数据库；通过文本分类器对实时新闻进行文本分类；抽取新闻文本信息；采用图数据库Neo4J实现上市公司知识图谱构建实体知识图谱，根据特定新闻内容，对图谱上的节点进行跟踪，以构造出具有事件归因功能的上市公司知识图谱。

全部详细技术资料下载

【技术实现步骤摘要】
一种适于事件归因的上市公司知识图谱构建方法及装置
本专利技术涉及知识图谱构建领域，特别涉及一种适于事件归因的上市公司知识图谱构建方法及装置。
技术介绍
随着互联网的迅速发展，我们获得的财经资讯呈现出爆发式增长，各大财经证券门户网站也如雨后春笋般相继涌现。为了能够保证新闻的时效性以及丰富性，以便更好争夺用户资源，各大财经网站都相继提高财经新闻的发布密度与广度，新闻资讯膨胀爆发趋势愈加剧烈。然而目前中国绝大多数投资者都是散户，并没有充足的时间精力去浏览大量的新闻资讯，也没有足够的检索分析能力去追踪各个新闻的之间的关联程度。因此将各大上市公司相关新闻提炼出来，并构造出一个事件归因的图谱网络是很有必要，也是很有价值的。这将会更有利于一般的散户能够精确快速地识别到哪些上市公司或股票的涨跌可能受哪些新闻事件的影响，从而做出更有价值的投资判断。此外，这种基于事件归因的知识图谱还可以应用于量化交易。量化交易人员可以从图谱当中抽取相关联的新闻事件内容，结合相关的自然语言处理技术方法，形成一系列有价值的指标，从而更有利于指导量化投资。目前的知识图谱构建主要涉及两个关键技术，一个是实体关系识别技术，另一个是知识推理技术。实体关系识别是指将文章中具有特定信息含义的名词提取出来，将其作为特定的处理单元进行分析研究。最早在1998你年MUC会议中被提出来，其目的是通过填充关系模板槽的方式抽取文本中特定的关系。随着统计学方法的发展，从文本中识别实体间关系的问题逐步转化为分类问题，Zelenko[3]等人提出使用浅层句法分析树上最小公共子树来表达关系实例，计算两棵子树之间的核函数，通过训...

【技术保护点】
1.一种适于事件归因的上市公司知识图谱构建方法，其特征在于，包括：S10生成金融词典：获取若干上市公司个股基本面信息及历史新闻，提取关键词句生成金融词典；S20生成实时新闻数据库：获取上市公司实时新闻，生成实时新闻数据库；S30设计文本分类器：借用金融词典从实时新闻库中抽取出实时新闻语料，以用来训练文本分类器，采用第一卷积神经网络模型对实时新闻进行文本分类；S40抽取文本信息：借用金融词典对归类后的实时新闻进行信息抽取，将非结构化信息转化为适配新闻数据库的结构化信息；S50构建实体知识图谱：利用Neo4J图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型，其中以上市公司个股基本面信息为节点，以各个上市公司之间的关系为边界，输入由S40信息抽取得到的实体新闻信息，生成上市公司知识图谱。

【技术特征摘要】
1.一种适于事件归因的上市公司知识图谱构建方法，其特征在于，包括：S10生成金融词典：获取若干上市公司个股基本面信息及历史新闻，提取关键词句生成金融词典；S20生成实时新闻数据库：获取上市公司实时新闻，生成实时新闻数据库；S30设计文本分类器：借用金融词典从实时新闻库中抽取出实时新闻语料，以用来训练文本分类器，采用第一卷积神经网络模型对实时新闻进行文本分类；S40抽取文本信息：借用金融词典对归类后的实时新闻进行信息抽取，将非结构化信息转化为适配新闻数据库的结构化信息；S50构建实体知识图谱：利用Neo4J图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型，其中以上市公司个股基本面信息为节点，以各个上市公司之间的关系为边界，输入由S40信息抽取得到的实体新闻信息，生成上市公司知识图谱。2.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法，其特征在于，所述S10之前还包括：S01链接知名抄股网站，采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻；所述S10之后，所述S20之前还包括：S02链接各大证券财经资讯的网站，采用爬虫程序获取各上市公司的实时新闻。3.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法，其特征在于，所述第一卷积神经网络模型分为四层：第一层为embedding层，这一层将每个词映射到低维的向量表示；第二层为卷积层，由不同窗口大小的Filter构成，同一个Filter参数共享，一个Filter为一类特征识别器，窗口大小就是识别的n-gram信息；第三层为池化层，池化层操作为将卷积得到的列向量的最大值提取出来，从而得到与Filter数量一致的行向量；第四层为全连接层，即在池化层后加一个softmax层，以将池化层输出的向量转化为所需的输出结果，即我们所需的新闻类别标签。4.如权利要求3所述的适于事件归因的上市公司知识图谱构建方法，其特征在于，所述embedding层将每个词映射到低维的向量表示的方法利用开源Word2vec工具包。5.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法，其特征在于，所述S30中采用卷积神经网络对实时新闻进行文本分类之前还包括：S301预处理阶段：对各实时新闻信息进行分词处理，过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息。6.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法，其特征在于，所述S40中将非结构化信息转化为适配新闻数据库的结构化信息的步骤包括：S401实体标注：借用金融词典，从每一条新闻当中识别出相应的实体，并对其进行实体标注；S402关系抽取：采用基于深度学习的方法查询预先训练的词向量表，生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征，利用第二卷积神经网络进行实体之间语义关系抽取，即采用词汇向量和词的位置向量作为第二卷积神经网络的输入，获得句子表示，其中第二卷积神经网络结构包括卷积层、池化层、非线性层，首...

【专利技术属性】
技术研发人员：郑子彬，梁宇轩，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人