一种基于卷积神经网络的企业实体关系抽取的方法技术

技术编号：16327151 阅读：61 留言：0更新日期：2017-09-29 19:02

本发明专利技术公开一种基于卷积神经网络的企业实体关系抽取的方法，包括构建关系语料库阶段，采用人工构建初始种子关系对集合，然后借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料，最终形成关系语料库；关系分类模型训练阶段，结合词向量与位置嵌入构建句子的向量矩阵表示作为网络的输入，然后搭建卷积神经网络并利用反向传播算法训练网络得到关系分类模型；网页中企业实体关系抽取阶段，结合网页正文提取和命名实体识别技术对网页进行预处理，然后对预处理过后的网页进行企业实体关系抽取。通过该方法不仅可以避免人工特征的方法的不足，还可以更加准确更高效地从网页中抽取出企业实体关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的企业实体关系抽取的方法
本专利技术涉及深度学习与自然语言处理技术，具体涉及一种基于卷及神经网络的实体关系抽取的方法。
技术介绍
随着互联网的普及和发展，信息量正以指数规律飞速地增长，每天数以亿计的文本数据在互联网上不断更新，这其中包括新闻、社交、政府网站数据。在这些数据当中蕴含着许多对人们有价值的信息，这些信息对人们的生产生活起着至关重要的作用。然而面对这些海量的互联网数据，单凭人力很难快速地从中获取自己所需要的信息。为了应对信息过载带来的挑战，迫切需要一些自动化的方法帮助人们从中迅速找到真正有用的信息。实体关系抽取研究正是在这种背景下产生的。实体关系抽取作为自然语言处理的一项经典任务，其主要任务是识别出文本中的实体并抽取实体之间的语义关系。实体关系抽取可以将无结构化的文本信息转化为结构化或半结构化的信息，并以数据库的形式存储，一方面可以用于对文本的快速阅读和理解，帮助人们更方便的获取所需要的信息，另一方面可以用于深入地挖掘分析，对知识库构建、垂直搜索、自动问答等自然语言处理相关领域起着非常重要的作用。其中，针对互联网新闻中存在的企业实体关系...
一种基于卷积神经网络的企业实体关系抽取的方法

【技术保护点】
一种基于卷积神经网络的企业实体关系抽取的方法，其特征在于，包括构建关系语料库阶段、关系分类模型训练阶段和网页中企业实体关系抽取阶段，其中，构建关系语料库阶段，采用人工构建初始种子关系对集合，然后借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料，最终形成关系语料库；关系分类模型训练阶段，结合词向量与位置嵌入构建句子的向量矩阵表示作为网络的输入，然后搭建卷积神经网络并利用反向传播算法训练网络得到关系分类模型；网页中企业实体关系抽取阶段，结合网页正文提取和命名实体识别技术对网页进行预处理，然后对预处理过后的网页进行企业实体关系抽取。

【技术特征摘要】
1.一种基于卷积神经网络的企业实体关系抽取的方法，其特征在于，包括构建关系语料库阶段、关系分类模型训练阶段和网页中企业实体关系抽取阶段，其中，构建关系语料库阶段，采用人工构建初始种子关系对集合，然后借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料，最终形成关系语料库；关系分类模型训练阶段，结合词向量与位置嵌入构建句子的向量矩阵表示作为网络的输入，然后搭建卷积神经网络并利用反向传播算法训练网络得到关系分类模型；网页中企业实体关系抽取阶段，结合网页正文提取和命名实体识别技术对网页进行预处理，然后对预处理过后的网页进行企业实体关系抽取。2.根据权利要求1所述的企业实体关系抽取的方法，其特征在于，所述的人工构建初始种子关系对包括如下步骤：S1、定义关系类型及整理对应的关键词列表；S2、选取初始种子企业；S3、将关键词列表和初始种子企业两两组合得到初始种子关系对，并形成初始种子关系对集合。3.根据权利要求2所述的企业实体关系抽取的方法，其特征在于，选取若干上市企业名单作为初始种子企业。4.根据权利要求1所述的企业实体关系抽取的方法，其特征在于，所述的借助于互联网搜索引擎并利用Bootstrapping技术迭代生成关系语料包括如下步骤：S1、将得到的初始种子关系对集合中的企业名和关系关键词作为检索关键词keyword1与keyword2送入搜索引擎爬虫；S2、持久化同时包含keyword1与keyword2的所有网页；S3、对S2中所得到的网页进行预处理；S4、筛选并保留同时包含keyword1与keyword2的句子作为初始关系语料S；S5、根据集合S计算每一类关系的中心点Ci；S6、对于集合S当中的每个句子，逐个进行命名实体识别，找出其中出现的另一个公司名，得到实体对<entity1,entity2>，并将entity2加入到种子企业中；S7、将S6得到的实体对送入搜索引擎爬虫，得到候选语料集C；S8、针对候选语料C中的每一句子Sc，计算其与每个类别中心点的距离di，将距离最近的中心点的类标y作为句子Sc的类别,并加入语料库S中，更新Ci；S9、判断语料库数量是否达到阈值，若是则结束，否则转入S1。5.根据权利要求1或4所述的企业实体关系抽取的方法，...

【专利技术属性】
技术研发人员：吴骏，王强，李振兴，李宁，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人