当前位置: 首页 > 专利查询>中山大学专利>正文

一种适于事件归因的上市公司知识图谱构建方法及装置制造方法及图纸

技术编号:20745406 阅读:35 留言:0更新日期:2019-04-03 10:26
本发明专利技术公开一种适于事件归因的上市公司知识图谱构建方法及装置,本装置用于实现本方法,本方法包括利用获取的上市公司的个股基本面信息及相关的个股历史新闻生成金融词典;利用获取的各上市公司相关的实时新闻生成实时新闻数据库;通过文本分类器对实时新闻进行文本分类;抽取新闻文本信息;采用图数据库Neo4J实现上市公司知识图谱构建实体知识图谱,根据特定新闻内容,对图谱上的节点进行跟踪,以构造出具有事件归因功能的上市公司知识图谱。

【技术实现步骤摘要】
一种适于事件归因的上市公司知识图谱构建方法及装置
本专利技术涉及知识图谱构建领域,特别涉及一种适于事件归因的上市公司知识图谱构建方法及装置。
技术介绍
随着互联网的迅速发展,我们获得的财经资讯呈现出爆发式增长,各大财经证券门户网站也如雨后春笋般相继涌现。为了能够保证新闻的时效性以及丰富性,以便更好争夺用户资源,各大财经网站都相继提高财经新闻的发布密度与广度,新闻资讯膨胀爆发趋势愈加剧烈。然而目前中国绝大多数投资者都是散户,并没有充足的时间精力去浏览大量的新闻资讯,也没有足够的检索分析能力去追踪各个新闻的之间的关联程度。因此将各大上市公司相关新闻提炼出来,并构造出一个事件归因的图谱网络是很有必要,也是很有价值的。这将会更有利于一般的散户能够精确快速地识别到哪些上市公司或股票的涨跌可能受哪些新闻事件的影响,从而做出更有价值的投资判断。此外,这种基于事件归因的知识图谱还可以应用于量化交易。量化交易人员可以从图谱当中抽取相关联的新闻事件内容,结合相关的自然语言处理技术方法,形成一系列有价值的指标,从而更有利于指导量化投资。目前的知识图谱构建主要涉及两个关键技术,一个是实体关系识别技术,另一个是知识推理技术。实体关系识别是指将文章中具有特定信息含义的名词提取出来,将其作为特定的处理单元进行分析研究。最早在1998你年MUC会议中被提出来,其目的是通过填充关系模板槽的方式抽取文本中特定的关系。随着统计学方法的发展,从文本中识别实体间关系的问题逐步转化为分类问题,Zelenko[3]等人提出使用浅层句法分析树上最小公共子树来表达关系实例,计算两棵子树之间的核函数,通过训练(如利用SVM分离器)对实例进行划分。但由于核函数相似度计算过程匹配约束比较严格,特别是对于上市公司名称表示上存在较大的冗余性,导致基于核函数的方法召回率普遍较低。随着时间的推移,语料的增多,信息抽取逐渐转向了基于神经模型的研究,相关的语料被提出作为测试标准。基于神经网络模型显著的特点是不需要加入太多的特征,一般可用的特征有词向量、位置等。后来又有人提出利用基于联合抽取模型,这种模型可以同时抽取实体及其之间的关系。但是不管是神经模型的方法,还是基于联合抽取的方法,都需要大量的训练语料,而财经新闻当中并不具有足够的标签信息,不满足可利用大量语料进行模型训练这一条件,因此这种基于分类的方法不适合构建集成上市公司与相关新闻信息的知识图谱。知识推理技术的一般思想是能通过图谱中已有的节点关系及节点信息,在某些节点发生变化的时候,能推断出与之相联系的节点的相应变化情况。具体的,相关人员提出了一种基于符号的推理方法,运用一种易处理概念语言,并开发了一些商用化的语义网络系统,以便使得语义网络同时具备形式化语义和高效推理。后来相关人员采用了多核多处理技术,及基于网络通信的分布式技术(如MapReduce计算框架、Peer-To-Peer网络框架等),以解决形式化语义上的效率问题。但是由于财经新闻数量呈爆发式增长,这些系统的推理效率还是难以满足日益增长的数据需要,难以很好地利用起来。此外,这里的知识图谱除了包含上市公司行情信息如股东、高管等基本信息之外,一些隐性的行情信息也需要包含在其中,如公司主营产品的内容,主营产品的上下游行业关系等。上游行业涉及到原材料和供应商,下游行业涉及到消费品和消费商等问题,此外,主营产品当前行业状况也是个关键的信息点,它涉及到行业竞争对手的关联性。因此仅用这种基于符号的推理方法无法深入地将对应的财经新闻信息加入到图谱中,影响图谱事件归因的追踪能力。
技术实现思路
本专利技术的主要目的是提出一种适于事件归因的上市公司知识图谱构建方法,旨在克服以上问题。为实现上述目的,本专利技术提出的一种适于事件归因的上市公司知识图谱构建方法,其特征在于,包括:S10生成金融词典:获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;S20生成实时新闻数据库:获取上市公司实时新闻,生成实时新闻数据库;S30设计文本分类器:借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类;S40文本信息抽取:借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;S50构建实体知识图谱:利用Neo4J图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由S40信息抽取得到的实体新闻信息,生成上市公司知识图谱。优选地,所述S10之前还包括:S01链接知名抄股网站,采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻;所述S10之后,所述S20之前还包括:S02链接各大证券财经资讯的网站,采用爬虫程序获取各上市公司的实时新闻。优选地,所述第一卷积神经网络模型分为四层:第一层为embedding层,这一层将每个词映射到低维的向量表示;第二层为卷积层,由不同窗口大小的Filter构成,同一个Filter参数共享,一个Filter为一类特征识别器,窗口大小就是识别的n-gram信息;第三层为池化层,池化层操作为将卷积得到的列向量的最大值提取出来,从而得到与Filter数量一致的行向量;第四层为全连接层,即在池化层后加一个softmax层,以将池化层输出的向量转化为所需的输出结果,即我们所需的新闻类别标签。优选地,所述embedding层将每个词映射到低维的向量表示的方法利用开源Word2vec工具包。优选地,所述S30中采用第一卷积神经网络对实时新闻进行文本分类之前还包括:S301预处理阶段:对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息。优选地,所述S40中将非结构化信息转化为适配新闻数据库的结构化信息的步骤包括:S401实体标注:借用金融词典,从每一条新闻当中识别出相应的实体,并对其进行实体标注;S402关系抽取:采用基于深度学习的方法查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征,利用第二卷积神经网络进行实体之间语义关系抽取,即采用词汇向量和词的位置向量作为第二卷积神经网络的输入,获得句子表示,其中第二卷积神经网络结构包括卷积层、池化层、非线性层,首先对表征类别的关键词特征经过卷积运算得到一系列特征,在池化层的作用下选择每个句子的关键特征,组合成特征向量,最后通过非线性层进入到分类器中进行分类;S403事件抽取:把含有事件信息的非结构化文本以结构化形式呈现出来,依据公司名信息、金融领域动词信息及语句位置,以判断当前句子是否为一篇新闻的事件句。优选地,所述S403具体为:(1)公司名信息:将公司名作为事件句的一个重要特征,通过如下公式求得:Scorecompany(Si)=Count(Si);(2)金融领域动词信息:借用金融词典,计算动词信息的权值,计算公式如下:(3)句子位置:句子位置权值计算公式如下:本专利技术还公开了一种基于事件归因的上市公司知识图谱构建装置,包括:第一生成模块,用于获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;第二生成模本文档来自技高网
...

【技术保护点】
1.一种适于事件归因的上市公司知识图谱构建方法,其特征在于,包括:S10生成金融词典:获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;S20生成实时新闻数据库:获取上市公司实时新闻,生成实时新闻数据库;S30设计文本分类器:借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类;S40抽取文本信息:借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;S50构建实体知识图谱:利用Neo4J图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由S40信息抽取得到的实体新闻信息,生成上市公司知识图谱。

【技术特征摘要】
1.一种适于事件归因的上市公司知识图谱构建方法,其特征在于,包括:S10生成金融词典:获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;S20生成实时新闻数据库:获取上市公司实时新闻,生成实时新闻数据库;S30设计文本分类器:借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类;S40抽取文本信息:借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;S50构建实体知识图谱:利用Neo4J图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由S40信息抽取得到的实体新闻信息,生成上市公司知识图谱。2.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述S10之前还包括:S01链接知名抄股网站,采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻;所述S10之后,所述S20之前还包括:S02链接各大证券财经资讯的网站,采用爬虫程序获取各上市公司的实时新闻。3.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述第一卷积神经网络模型分为四层:第一层为embedding层,这一层将每个词映射到低维的向量表示;第二层为卷积层,由不同窗口大小的Filter构成,同一个Filter参数共享,一个Filter为一类特征识别器,窗口大小就是识别的n-gram信息;第三层为池化层,池化层操作为将卷积得到的列向量的最大值提取出来,从而得到与Filter数量一致的行向量;第四层为全连接层,即在池化层后加一个softmax层,以将池化层输出的向量转化为所需的输出结果,即我们所需的新闻类别标签。4.如权利要求3所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述embedding层将每个词映射到低维的向量表示的方法利用开源Word2vec工具包。5.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述S30中采用卷积神经网络对实时新闻进行文本分类之前还包括:S301预处理阶段:对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息。6.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述S40中将非结构化信息转化为适配新闻数据库的结构化信息的步骤包括:S401实体标注:借用金融词典,从每一条新闻当中识别出相应的实体,并对其进行实体标注;S402关系抽取:采用基于深度学习的方法查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征,利用第二卷积神经网络进行实体之间语义关系抽取,即采用词汇向量和词的位置向量作为第二卷积神经网络的输入,获得句子表示,其中第二卷积神经网络结构包括卷积层、池化层、非线性层,首...

【专利技术属性】
技术研发人员:郑子彬梁宇轩
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1