当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于卷积神经网络的企业实体关系抽取的方法技术

技术编号:16327151 阅读:52 留言:0更新日期:2017-09-29 19:02
本发明专利技术公开一种基于卷积神经网络的企业实体关系抽取的方法,包括构建关系语料库阶段,采用人工构建初始种子关系对集合,然后借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料,最终形成关系语料库;关系分类模型训练阶段,结合词向量与位置嵌入构建句子的向量矩阵表示作为网络的输入,然后搭建卷积神经网络并利用反向传播算法训练网络得到关系分类模型;网页中企业实体关系抽取阶段,结合网页正文提取和命名实体识别技术对网页进行预处理,然后对预处理过后的网页进行企业实体关系抽取。通过该方法不仅可以避免人工特征的方法的不足,还可以更加准确更高效地从网页中抽取出企业实体关系。

【技术实现步骤摘要】
一种基于卷积神经网络的企业实体关系抽取的方法
本专利技术涉及深度学习与自然语言处理技术,具体涉及一种基于卷及神经网络的实体关系抽取的方法。
技术介绍
随着互联网的普及和发展,信息量正以指数规律飞速地增长,每天数以亿计的文本数据在互联网上不断更新,这其中包括新闻、社交、政府网站数据。在这些数据当中蕴含着许多对人们有价值的信息,这些信息对人们的生产生活起着至关重要的作用。然而面对这些海量的互联网数据,单凭人力很难快速地从中获取自己所需要的信息。为了应对信息过载带来的挑战,迫切需要一些自动化的方法帮助人们从中迅速找到真正有用的信息。实体关系抽取研究正是在这种背景下产生的。实体关系抽取作为自然语言处理的一项经典任务,其主要任务是识别出文本中的实体并抽取实体之间的语义关系。实体关系抽取可以将无结构化的文本信息转化为结构化或半结构化的信息,并以数据库的形式存储,一方面可以用于对文本的快速阅读和理解,帮助人们更方便的获取所需要的信息,另一方面可以用于深入地挖掘分析,对知识库构建、垂直搜索、自动问答等自然语言处理相关领域起着非常重要的作用。其中,针对互联网新闻中存在的企业实体关系的抽取是一项比较典型的实体关系抽取任务,它对金融舆情、企业投资等方面具有重要作用。目前,大多数实体关系抽取的方法是基于监督学习的方法,通常需要大量人工标注的训练数据,选取合适的特征后从训练数据中学习关系对应的抽取模式。该方法的缺点也很明显,一是需要人工标注训练数据集,十分的耗时耗力;二是依赖一些自然语言处理工具来提取特征,而这些工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。
技术实现思路
借助于词向量和深层的神经网络,可以学习得到句子的分布式向量表示,该向量包含了文本的语义信息,可以作为关系抽取分类模型的输入。为解决上述问题,本专利技术提供一种基于卷积神经网络的企业实体关系抽取的方法,首先利用Bootstrapping技术构建企业关系语料库,接着基于卷积神经网络来构建句子的分布式表示,最后构建关系分类模型并对网页中存在的企业关系进行抽取。具体技术方案如下:一种基于卷积神经网络的企业实体关系抽取的方法,包括构建关系语料库阶段、关系分类模型训练阶段和网页中企业实体关系抽取阶段,其中,构建关系语料库阶段,采用人工构建初始种子关系对集合,然后借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料,最终形成关系语料库;关系分类模型训练阶段,结合词向量与位置嵌入构建句子的向量矩阵表示作为网络的输入,然后搭建卷积神经网络并利用反向传播算法训练网络得到关系分类模型;网页中企业实体关系抽取阶段,结合网页正文提取和命名实体识别技术对网页进行预处理,然后对预处理过后的网页进行企业实体关系抽取。进一步的,人工构建初始种子关系对包括如下步骤:S1、定义关系类型及整理对应的关键词列表;S2、选取初始种子企业;S3、将关键词列表和初始种子企业两两组合得到初始种子关系对,并形成初始种子关系对集。进一步的,选取若干上市企业名单作为初始种子企业。进一步的,所述的借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料包括如下步骤:S1、将得到的初始种子关系对集合中的企业名和关系关键词作为检索关键词keyw与keyw送入搜索引擎爬虫;S2、持久化同时包含keyword1与keyword2的所有网页;S3、对S2中所得到的网页进行预处理;S4、筛选并保留同时包含keyword1与keyword2的句子作为初始关系语料S;S5、根据集合S计算每一类关系的中心点Ci;S6、对于集合S当中的每个句子,逐个进行命名实体识别,找出其中出现的另一个公司名,得到实体对<entity1,entity2>,并将entity2加入到种子企业中;S7、将S6得到的实体对送入搜索引擎爬虫,得到候选语料集C;S8、针对候选语料C中的每一句子Sc,计算其与每个类别中心点的距离di,将距离最近的中心点的类标y作为句子Sc的类别,并加入语料库S中,更新Ci;S9、判断语料库数量是否达到阈值,若是则结束,否则转入S1。进一步的,预处理包括正文提取和分句操作,其中,正文提取是指提取网页的正文,去除网页中其他不相关的部分;分句操作是指将网页正文拆分成一个一个句子。进一步的,结合词向量与位置嵌入构建句子的向量矩阵包括如下步骤:S1、利用word2vec训练得到每个词的词向量表示ai;S2、对于句子当中的每个词wi,计算其与两个实体的相对距离di1,di2;S3、结合S1和S2中得到每个词wi的语义信息与位置信息的组合表示xi={ai,di1,di2};S4、则一个长度为n的句子则可以表示为:表示连接操作符,从而构成由词向量和位置嵌入构成的句子向量矩阵n*(k+2),k为词向量的维度,是固定值。进一步的,搭建卷积神经网络并利用反向传播算法训练网络包括如下步骤:S1、将得到的句子向量矩阵作为输入送入卷积神经网络中;S2、用一个滤波器进行卷积操作,该滤波器将与一个窗口大小为h词向量矩阵产生一个特征图谱,其中,w表示滤波器,h*(k+2)表示滤波器的大小;S3、对特征图谱使用max-overtime的池化操作,即取作为此滤波器下得到的特征;S4、使用多个滤波器来获取多个不同的特征图谱并做池化操作以得到相关特征;S5、对于给定一个样本x,输入到网络中,与训练参数θ运算将输出一个向量o,它的第i维oi表示该句子属于第i类的一个概率评分,其中,训练参数θ表示卷积神经网络中每一层的权重与偏置参数;S6、为了获得条件概率p(i|x,θ),我们在关系类别之上做一个softmax操作:其中,x表示输入样本,m表示总的关系类别数;S7、对于所有的训练样本T:(xi,yi)得到训练参数θ的对数似然函数值:其中,T表示样本总数也就是训练语料库的大小,x表示输入样本,y表示输入样本x对应的类标;S8、通过反向传播算法来迭代更新θ:并最终得到关系分类模型。进一步的,多个滤波器的窗口大小不完全一致。进一步的,使用开源工具WebCollector对网页进行正文提取,使用开源工具HanLP对网页中的句子进行命名实体识别。进一步的,所述的对预处理过后的网页进行企业实体关系抽取的具体过程如下:S1、将网页正文分句,以句号和分号作为分隔符;S2、筛选出包含两个或两个以上企业实体的句子集合Q;S3、将Q中的句子逐个送入关系分类模型中,得到该句子所包含的实体关系。有益效果:本专利技术使用了卷积神经网络来实现实体关系的抽取,避免了过多依赖于人工选取特征,不仅可以避免人工特征的方法的不足(一般会存在两点不足:一是所提特征需要借助一些自然语言处理工具,这些工具难免会存在误差;二是难以选取合适的特征子集),还可以更加准确更高效地从网页中抽取出企业实体关系。此外,本专利技术还借助了Bootstarpping思想以及搜索引擎来自动构建关系语料库,避免了纯手工标注费时费力的缺点。本专利技术是一种基于深度学习技术的关系抽取方法,可取得state-of-the-art(现有的最高水平)的效果。附图说明图1为基于卷积神经网络的企业实体关系抽取的方法的流程图;图2为基于Bootstrapping技术的构建关系语料本文档来自技高网
...
一种基于卷积神经网络的企业实体关系抽取的方法

【技术保护点】
一种基于卷积神经网络的企业实体关系抽取的方法,其特征在于,包括构建关系语料库阶段、关系分类模型训练阶段和网页中企业实体关系抽取阶段,其中,构建关系语料库阶段,采用人工构建初始种子关系对集合,然后借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料,最终形成关系语料库;关系分类模型训练阶段,结合词向量与位置嵌入构建句子的向量矩阵表示作为网络的输入,然后搭建卷积神经网络并利用反向传播算法训练网络得到关系分类模型;网页中企业实体关系抽取阶段,结合网页正文提取和命名实体识别技术对网页进行预处理,然后对预处理过后的网页进行企业实体关系抽取。

【技术特征摘要】
1.一种基于卷积神经网络的企业实体关系抽取的方法,其特征在于,包括构建关系语料库阶段、关系分类模型训练阶段和网页中企业实体关系抽取阶段,其中,构建关系语料库阶段,采用人工构建初始种子关系对集合,然后借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料,最终形成关系语料库;关系分类模型训练阶段,结合词向量与位置嵌入构建句子的向量矩阵表示作为网络的输入,然后搭建卷积神经网络并利用反向传播算法训练网络得到关系分类模型;网页中企业实体关系抽取阶段,结合网页正文提取和命名实体识别技术对网页进行预处理,然后对预处理过后的网页进行企业实体关系抽取。2.根据权利要求1所述的企业实体关系抽取的方法,其特征在于,所述的人工构建初始种子关系对包括如下步骤:S1、定义关系类型及整理对应的关键词列表;S2、选取初始种子企业;S3、将关键词列表和初始种子企业两两组合得到初始种子关系对,并形成初始种子关系对集合。3.根据权利要求2所述的企业实体关系抽取的方法,其特征在于,选取若干上市企业名单作为初始种子企业。4.根据权利要求1所述的企业实体关系抽取的方法,其特征在于,所述的借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料包括如下步骤:S1、将得到的初始种子关系对集合中的企业名和关系关键词作为检索关键词keyword1与keyword2送入搜索引擎爬虫;S2、持久化同时包含keyword1与keyword2的所有网页;S3、对S2中所得到的网页进行预处理;S4、筛选并保留同时包含keyword1与keyword2的句子作为初始关系语料S;S5、根据集合S计算每一类关系的中心点Ci;S6、对于集合S当中的每个句子,逐个进行命名实体识别,找出其中出现的另一个公司名,得到实体对<entity1,entity2>,并将entity2加入到种子企业中;S7、将S6得到的实体对送入搜索引擎爬虫,得到候选语料集C;S8、针对候选语料C中的每一句子Sc,计算其与每个类别中心点的距离di,将距离最近的中心点的类标y作为句子Sc的类别,并加入语料库S中,更新Ci;S9、判断语料库数量是否达到阈值,若是则结束,否则转入S1。5.根据权利要求1或4所述的企业实体关系抽取的方法,...

【专利技术属性】
技术研发人员:吴骏王强李振兴李宁
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1