一种基于因子图的金融公报文本知识提取方法技术

技术编号：16379729 阅读：121 留言：0更新日期：2017-10-15 13:43

本发明专利技术公开了一种基于因子图的金融公报文本知识提取方法，包括：(1)从金融数据库上获取满足预设特定关系的文本数据，并对其预处理，得到数据A；(2)对数据A进行弱监督学习得到数据A1；(3)对数据A1进行候选实体识别，构建得到候选实体对集B1；(4)根据建立的正则表达式在金融公报文本中匹配得到满足特定预设关系的候选实体对集B2；(5)分别对候选实体对集B1、B2中候选实体对的进行特征提取，得到特征向量集C1与C2；(6)利用C1、C2对因子图模型进行训练，得到金融文本知识抽取模型；(7)将预测样本输入至金融文本知识抽取模型中，将输出概率值大于阈值的实体对作为抽取结果。

A knowledge extraction method of financial communique text based on factor graph

The invention discloses a factor graph text knowledge extraction method of financial statement, including: (1) based on text data access to meet the preset specific relation from the financial database, and to its pretreatment, data from the A; (2) the data A of weakly supervised learning data A1; (3) candidate the entity identification data A1, constructed by the candidate entity of B1; (4) according to the regular expression matching set satisfy certain presuppositions on the relationship between the candidate entity set B2 in the financial Gazette text; (5) of B1, B2 on the set of candidate entities in the candidate entity for feature extraction, feature vector set C1 and C2; (6) trained on the factor graph model by using C1, C2, financial text knowledge extraction model; (7) the prediction sample input to the financial text knowledge extraction model, the output probability value is greater than the threshold value of the entity As a result of extraction.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于因子图的金融公报文本知识提取方法
本专利技术涉及计算机文本抽取技术，具体涉及一种基于因子图的金融公报文本知识提取方法。
技术介绍
随着网络技术的不断发展，互联网上的信息量也在爆炸性的增长。据统计每天互联网上流通的信息量超过1000PB。如何从海量信息中快速有效的提取出需要的信息和知识，成为了非常重要的研究方向。随着互联网上一些大规模知识库在扮演着越来越重要的角色，知识库的构建工作也越来越成为研究高点，传统的文本知识抽取方法基于各领域专家的人工整合，已经无法处理如此大规模的信息抽取，因此基于机器学习的信息抽取方法成为了大数据时代的主流方法。近几年来，基于机器学习的文本挖掘算法逐步完善起来，各大互联网公司出现了一些实用的技术和相关产品，例如google通过多种提取技术融合构建了超大规模的KnowledgeVault，它可以自主学习互联网上网页、图表、文本等多种来源的数据从而生成知识库。但是相关领域一些开源的实用文本知识提取方法还非常少见，尤其是面向中文文本的工具更是十分缺乏。另一方面，因子图模型具有很强的计算和表达能力，能在概率推理过程中表达各种模型，例如贝叶斯网络、无向图等，近几年来在信息抽取方面取得了很好的效果，不仅在多个垂直领域得到广泛应用，同时也在各种英文信息抽取竞赛中取得了很好的成绩。因此可以考虑借助因子图模型来完成中文文本知识的抽取。而金融公报中包含了很多有意义的知识信息，这些结构化的信息对于金融人员进行金融数据的分析有着非常重要的作用，如何使用一种自动化的知识提取方法对于实现金融智能有着重大的意义。
技术实现思路
鉴于上述，本专利技术提供了一...
一种基于因子图的金融公报文本知识提取方法

【技术保护点】
一种基于因子图的金融公报文本知识提取方法，包括以下步骤：(1)从金融数据库上获取满足预设特定关系的文本数据，并对这些文本数据进行预处理，得到预处理数据A；(2)以预处理数据A作为弱监督学习的正样本，以通过负抽样方法建立的数据作为弱监督学习的负样本，进行弱监督学习，得到数据A1；(3)对数据A1进行候选实体识别，构建得到候选实体对集B1；(4)建立一个正则表达式，并根据正则表达式在金融公报文本中匹配得到满足特定预设关系的文本数据，并对该些文本数据进行预处理，得到候选实体对集B2；(5)分别对候选实体对集B1、B2中候选实体对的进行特征提取，得到候选实体对集B1的特征向量集C1与候选实体对集B2的特征向量集C2，并将特征向量集C1、C2存储到数据库中；(6)将数据库中的特征向量集C1、C2作为因子图模型的输入，以候选实体对集B1、B2中候选实体对对应的标记值作为因子图模型的真值标签，以目标函数y最大为目标，对因子图模型进行训练，得到金融文本知识抽取模型；(7)将预测样本输入至金融文本知识抽取模型中，将输出概率值大于阈值的实体对作为抽取结果。

【技术特征摘要】
1.一种基于因子图的金融公报文本知识提取方法，包括以下步骤：(1)从金融数据库上获取满足预设特定关系的文本数据，并对这些文本数据进行预处理，得到预处理数据A；(2)以预处理数据A作为弱监督学习的正样本，以通过负抽样方法建立的数据作为弱监督学习的负样本，进行弱监督学习，得到数据A1；(3)对数据A1进行候选实体识别，构建得到候选实体对集B1；(4)建立一个正则表达式，并根据正则表达式在金融公报文本中匹配得到满足特定预设关系的文本数据，并对该些文本数据进行预处理，得到候选实体对集B2；(5)分别对候选实体对集B1、B2中候选实体对的进行特征提取，得到候选实体对集B1的特征向量集C1与候选实体对集B2的特征向量集C2，并将特征向量集C1、C2存储到数据库中；(6)将数据库中的特征向量集C1、C2作为因子图模型的输入，以候选实体对集B1、B2中候选实体对对应的标记值作为因子图模型的真值标签，以目标函数y最大为目标，对因子图模型进行训练，得到金融文本知识抽取模型；(7)将预测样本输入至金融文本知识抽取模型中，将输出概率值大于阈值的实体对作为抽取结果。2.如权利要求1所述的基于因子图的金融公报文本知识提取方法，其特征在于，步骤(1)中与步骤(4)中，所述的对文本数据进行预处理的具体过程为：采用StanfordCorenlp或jieba工具对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。3.如权利要求1所述的基于因子图的金融公报文本知识提取方法，其特征在于，所述步骤(3)的具体步骤为：首先，从数据A1中识别候选实体，排除错误和无意义的候选实体；然后，对相同意义的...

【专利技术属性】
技术研发人员：陈华钧，陈曦，张宁豫，吴朝晖，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人