互联网海量数据中命名实体间关系提取方法及其系统技术方案

技术编号：12095576 阅读：207 留言：0更新日期：2015-09-23 13:27

本发明专利技术公开了一种互联网海量数据中命名实体间关系提取方法，包括以下步骤：网络信息爬取和语料库构建；文本预处理；提取代表短文档特征的关键词；获得代表实体关系的“实体-关系模式”；关系标注，利用这些模式在大量的无结构文本中寻找新的“实体关系对”；实体关系对评估；本发明专利技术还公开了一种实现互联网海量数据中命名实体间关系提取方法的系统，包括：网络信息爬取模块、信息预处理模块、特征词提取模块、实体关系提取和评估模块。具有使关系查找系统更加方便扩展和具有较高的运行效率等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种互联网海量数据中命名实体间的关系提取技术，特别涉及一种互联网海量数据中命名实体间关系提取方法及其系统，本专利技术是一种适应于海量数据的基于频繁词和加权熵的关系提取方法和系统，同时为了适应互联网巨大的数据量和保持灵活的扩展性，并且结合了Hadoop分布式技术。
技术介绍
目前，互联网技术高速发展，堆积在互联网中的数据呈爆炸性的指数型增长，21世纪初以来，因为网络硬件设施的快速发展以及存储介质愈来愈廉价，互联网中数据的存储量更是达到了前所未有的巨大，世界中几乎每一个人都为其源源不断的贡献着数据资源。在这种背景下，技术、商业、管理以及金融等领域都在悄然的发生着巨大的变化，人们的思潮也开始了新一轮的变革，正在迎接着"大数据"时代的来临，正在体验和适应着"大数据" 时代带给生活方式乃至思考方式的大变革。然而，数据量的巨大是静态的，如果没有科学的方法和技术去"挖掘"其中所蕴含的知识，将忽略这笔巨大的资源。本专利技术所探讨的命名实体关系提取方法，就是面向互联网这些大量的结构化、半结构化甚至无结构的文本，构建一个迭代的分布式提取框架去完成对这些静态数据资源的自动解析和知识发现，用以实现互联网下命名实体关系的提取，构建实体关系网络。基于互联网的命名实体关系提取（Web-basedEntityRelationExtraction)在当前互联网技术高速发展的今天已经逐渐成为了一个极具潜力的研宄方向，从一个巨大的语料库中探寻蕴含在不同命名实体之间的关系是一项具有挑战性并且很有意义的研宄，其在自然语言处理（Natura...

【技术保护点】
一种互联网海量数据中命名实体间关系提取方法，其特征在于，包括以下步骤：网络信息爬取和语料库构建，从百科网站上爬取命名实体以及关于实体的文本解释，并从互联网中存在大量结构化的实体数据，即“种子”数据，这部分信息将作为训练数据指导更大量的实体关系标注；文本预处理，将爬取到的文本进行分词、词性标注和去除停顿词处理；提取代表短文档特征的关键词，利用频繁词提取方法和改进于其的加权熵方法可以获得短文本中表示文本意义的关键词；获得代表实体关系的“实体‑关系模式”，并每一个模式当作一个向量，向量中每一个经过中文分词等预处理后的词语都被赋予权重，模式中包含类别信息；关系标注，即获取“实体关系对”，利用这些模式在大量的无结构文本中寻找新的“实体关系对”；实体关系对评估，对已经产生的“实体‑关系模式”以及候选“实体关系对”评价和筛选，并将通过评估的“实体关系对”作为“种子”继续服务于下一轮命名实体关系的查找与提取。

【技术特征摘要】

【专利技术属性】
技术研发人员：蔡毅，李靖楠，闵华清，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人