【技术实现步骤摘要】
一种基于关键词匹配的实体抽取方法及系统
[0001]本专利技术属于知识图谱构建领域,更具体地,涉及一种基于关键词匹配的实体抽取方法及系统。
技术介绍
[0002]在如今大数据的时代,数据冗杂为知识的查询带来许多不便,知识图谱在此背景下顺应而生。知识图谱,通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法,与计量学引文分析、共现分析等方法相结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,以达到多学科融合目的。它能为学科研究提供切实的、有价值的参考。知识图谱将知识内容可视化,将关系结构具体化,通过各个学科界的共同协作,使用可视化技术描述知识,便于查询,也能为各个学科研究提供便利有效的参考。
[0003]在技术快速发展的当今,我们应更加需要一些专用的知识图谱架构,不仅方便人们了解学习相关知识,也方便研究者搜寻参考,便于科技发展得到进一步的提升。
[0004]国内外有许多知识图谱的使用案例,在不同专业领域例如医学、饮食、商业等。一个知识图谱的构建,需要三个步骤:信 ...
【技术保护点】
【技术特征摘要】
1.一种基于关键词匹配的实体抽取方法,用于中文文本的实体抽取,其特征在于,包括以下步骤:(1)预处理步骤:从待处理的中文文本中抽取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;关键词库是按设定的初始关键词建立,并不断从互联网获取初始关键词的近义词加入其中;对结构化文本,执行步骤(2);对非结构化文本,执行步骤(3);(2)结构化文本抽取步骤:根据所述关键词库,对所述结构化文本进行匹配操作,得到与每个匹配关键词相对应的若干个实体,组成若干个键值对;所有的键值对组成第一实体集;执行步骤(4);(3)非结构化文本抽取步骤:根据所述关键词库,抽取所述非结构化文本中相应的句子,组成实体文本集;抽取实体文本集中相应的实体,组成第二实体集;执行步骤(4);(4)合并步骤:将所述第一实体集和第二实体集合并为最终实体集。2.如权利要求1所述的基于关键词匹配的实体抽取方法,其特征在于,所述非结构化文本抽取步骤中,组成实体文本集的过程为:根据设定的触发词集中的每个触发词,对非结构化文本进行第一次匹配操作,得到含有该触发词的一个以上的匹配词组,将每个匹配词组所在的句子以及前一个和后一个句子抽取出来;将抽取出的所有句子中的重复句子去除,剩下的句子组成实体文本集;所述触发词集中的触发词包含在所述关键词库中。3.如权利要求2所述的基于关键词匹配的实体抽取方法,其特征在于,所述组成实体文本集的过程中,对于能与多个触发词相匹配的单个匹配词组,将其匹配到一个设定的触发词,该触发词与所述多个触发词均不相同。4.如权利要求1所述的基于关键词匹配的实体抽取方法,其特征在于,所述非结构化文本抽取步骤中,组成第二实体集的过程为:根据设定的关键词集中的每个关键词,对实体文本集的每个句子进行第二次匹配操作,得到含有该关键词的若干个实体,组成若干个键值对;所有的键值对组成第二实体集;所述关键词集中的关键词包含在所述关键词库中。5.一种基于关键词匹配的实体抽取系统,用于中文文本的实体抽取,其特征在于,包括以下模块:预处理模块:用于从待处理的中文文本中抽取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;关键词库是按设定的初始关键词建...
【专利技术属性】
技术研发人员:王善和,刘昊,李森,
申请(专利权)人:海南港航控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。