互联网海量数据中命名实体间关系提取方法及其系统技术方案

技术编号:12095576 阅读:207 留言:0更新日期:2015-09-23 13:27
本发明专利技术公开了一种互联网海量数据中命名实体间关系提取方法,包括以下步骤:网络信息爬取和语料库构建;文本预处理;提取代表短文档特征的关键词;获得代表实体关系的“实体-关系模式”;关系标注,利用这些模式在大量的无结构文本中寻找新的“实体关系对”;实体关系对评估;本发明专利技术还公开了一种实现互联网海量数据中命名实体间关系提取方法的系统,包括:网络信息爬取模块、信息预处理模块、特征词提取模块、实体关系提取和评估模块。具有使关系查找系统更加方便扩展和具有较高的运行效率等优点。

【技术实现步骤摘要】

本专利技术涉及一种互联网海量数据中命名实体间的关系提取技术,特别涉及一种互 联网海量数据中命名实体间关系提取方法及其系统,本专利技术是一种适应于海量数据的基于 频繁词和加权熵的关系提取方法和系统,同时为了适应互联网巨大的数据量和保持灵活的 扩展性,并且结合了Hadoop分布式技术。
技术介绍
目前,互联网技术高速发展,堆积在互联网中的数据呈爆炸性的指数型增长,21世 纪初以来,因为网络硬件设施的快速发展以及存储介质愈来愈廉价,互联网中数据的存储 量更是达到了前所未有的巨大,世界中几乎每一个人都为其源源不断的贡献着数据资源。 在这种背景下,技术、商业、管理以及金融等领域都在悄然的发生着巨大的变化,人们的思 潮也开始了新一轮的变革,正在迎接着"大数据"时代的来临,正在体验和适应着"大数据" 时代带给生活方式乃至思考方式的大变革。 然而,数据量的巨大是静态的,如果没有科学的方法和技术去"挖掘"其中所蕴含 的知识,将忽略这笔巨大的资源。本专利技术所探讨的命名实体关系提取方法,就是面向互联网 这些大量的结构化、半结构化甚至无结构的文本,构建一个迭代的分布式提取框架去完成 对这些静态数据资源的自动解析和知识发现,用以实现互联网下命名实体关系的提取,构 建实体关系网络。 基于互联网的命名实体关系提取(Web-basedEntityRelationExtraction)在 当前互联网技术高速发展的今天已经逐渐成为了一个极具潜力的研宄方向,从一个巨大的 语料库中探寻蕴含在不同命名实体之间的关系是一项具有挑战性并且很有意义的研宄,其 在自然语言处理(NaturalLanguageProcessing)的众多领域均有着广泛的应用,例如信 息检索(InformationRetrieval)、问答系统(QuestionAnswering)、语义搜索(Semantic Search)和文本挖掘(TextualMining)等。命名实体的排歧作为对于命名实体中同名实体 间歧义的消除,是使关系提取更为准确从而面向语义层面的重要一步,使关系的提取对于 之前更多的从字面层面出发进化到对实体本身所代表意义的关注,从而使得实体之间的关 系更加牢固和可信。 考虑到频繁的词语更能代表一个文档的关键字,在基于频繁词的n元组方法中可 以获得一个关系类别中常出现的词语,过滤掉那些没意义且关系无关的词语,提高关系查 找能力。考虑了类别对词语权重影响的加权熵方法就是这样一种获得常用类别词语的方 法,这个方法改进了频繁词不能完全代表文档主题的问题,进一步提高了关系提取中的准 确率。 分布式计算理论和技术的飞速发展推动了大量的对海量数据研宄的进展,这些理 论和技术中最具有划时代意义的便是MapReduce计算模型和Hadoop框架,利用它们,可以 构建出灵活的高可扩展的分布式计算框架,本专利技术正是借助MapReduce计算模型和Hadoop 框架构建出了一个能够稳定运行的分布式实体关系提取框架。 对海量互联网文本的获取可以利用当前成熟的爬虫技术,互联网爬虫通过对由网 站内的链接组成的网络进行广泛遍历,连续的获得大量所需的信息,利用当前成熟的网络 爬虫理论可以构建出高效的网络爬虫。 中文文本处理技术的发展为本研宄的开展奠定了坚实的基础,例如中文分词和词 性标注在目前学术界和工业界均有较为成熟的解决方案,对于这些理论和技术的掌握与应 用是本专利技术顺利开展的基础。
技术实现思路
本专利技术的首要目的在于克服现有技术的缺点与不足,提供了一种互联网海量数据 中命名实体间关系提取方法,该方法通过使用一种基于频繁词和加权熵的关系提取方法, 并面向多对多的多元关系,提高了提取实体关系对的召回率,改进了频繁词不能完全代表 类别主题的问题,提高了关系提取中的准确率。 本专利技术的另一目的在于克服现有技术的缺点与不足,提供一种互联网海量数据中 命名实体间关系提取方法的系统,该系统为了使得命名实体间关系的查找能够持续运行于 当今互联网海量数据中,使得关系查找系统更加方便扩展和具有较高的运行效率,本系统 利用了开源的Hadoop分布式框架和MapReduce计算模型。 本专利技术的首要目的通过下述技术方案实现:互联网海量数据中命名实体间关系提 取方法,包括以下步骤: 网络信息爬取和语料库构建,从百科网站上爬取命名实体以及关于实体的文本解 释,百科类网站上包含大量无结构和半结构化的实体细节描述信息,同时,互联网中依然存 在大量结构化的实体数据,称之为"种子"数据,即从结构化互联网文档中提取的关系明确 的实体对,这部分信息将作为训练数据指导更大量的实体关系标注; 文本预处理,将爬取到的文本进行分词、词性标注和去除停顿词处理; 提取多对多候选关系对,现实中的关系不是仅仅存在一对一的关系,例如一本书 完全有可能有多个作者,一个导演完全有可能拍摄过多部影片,实体关系应当是可以组成 网络的多元关系,本专利技术在提取候选对的时候不再局限于二元关系; 提取代表短文档特征的关键词,利用频繁词提取方法和改进于其的加权熵方法可 以获得短文本中表示文本意义的关键词; 获得代表实体关系的"实体-关系模式",利用由结构化数据获取的"种子"数据和 提取的短文本中的关键词组成一个表达实体关系的"实体-关系模式",所谓"实体-关系 模式"就是包含这一对"种子"的短文本,例如在" #大张伟#_p在春节晚会上唱了《#倍儿 爽#_3》这首歌"这段短文本中#'之间是命名实体和它的ID,之后是命名实体的属 性),包含了 一个人物和一首歌曲,可以获得"P在春节晚会上唱了S这首歌"这样一段"实 体-关系模式",并且由于"大张伟-倍儿爽"这个"实体关系对"的类别为"演唱者",所以 这段模式被划分为"演唱者"关系的模式,这其中每一个模式被当作一个向量,向量中每一 个经过中文分词等预处理后的词语都被赋予了权重,在系统中使用词频(Term-Frequency) 作为每一个词语的权重,模式中的包含类别信息,例如人物(P)、电影电视剧(M)、音乐(S) 以及书籍⑶等。 关系标注,即获取"实体关系对",利用这些模式在大量的无结构文本中去寻找新 的"实体关系对",例如以上"实体-关系模式",当包含有人物和歌曲的短文本出现,并且它 们的文本和这条关系模式足够"相似"的话,那么可以认为这里的人物是这首歌曲的演唱 者,这里的"相似"是利用之前文本预处理后为每一个词语赋予的权重作为度量然后计算相 似度相互比较得出的。 实体关系对评估,对已经产生的"实体-关系模式"以及候选"实体关系对"的评 价和筛选是本专利技术中极其重要的一环,认为有价值的"实体-关系模式"才能产生有价值的 "实体关系对",且有价值的"实体关系对"才能够作为"种子"继续服务于下一轮命名实体关 系的查找与提取。 所述的网络信息爬取和语料库构建为: 当前工业界存在有大量优秀的爬虫框架,Scrapy是一个用Python语言编写的开 源爬虫框架,用来抓取网站并从中提取数据,从数据挖掘到监控和自动化测试的领域都有 广泛的应用。它实现了一个爬虫的大部分模块,并且把大部分爬虫操作模块化,从而对外提 供各种接口,可以灵活地实现想要的功能,正是借助了Scrapy框架来完成对语料库知识的 构建。 因为的任务需要大本文档来自技高网
...

【技术保护点】
一种互联网海量数据中命名实体间关系提取方法,其特征在于,包括以下步骤:网络信息爬取和语料库构建,从百科网站上爬取命名实体以及关于实体的文本解释,并从互联网中存在大量结构化的实体数据,即“种子”数据,这部分信息将作为训练数据指导更大量的实体关系标注;文本预处理,将爬取到的文本进行分词、词性标注和去除停顿词处理;提取代表短文档特征的关键词,利用频繁词提取方法和改进于其的加权熵方法可以获得短文本中表示文本意义的关键词;获得代表实体关系的“实体‑关系模式”,并每一个模式当作一个向量,向量中每一个经过中文分词等预处理后的词语都被赋予权重,模式中包含类别信息;关系标注,即获取“实体关系对”,利用这些模式在大量的无结构文本中寻找新的“实体关系对”;实体关系对评估,对已经产生的“实体‑关系模式”以及候选“实体关系对”评价和筛选,并将通过评估的“实体关系对”作为“种子”继续服务于下一轮命名实体关系的查找与提取。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡毅李靖楠闵华清
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1