一种基于关键词匹配的实体抽取方法及系统技术方案

技术编号:32578730 阅读:26 留言:0更新日期:2022-03-09 17:08
本发明专利技术公开了一种基于关键词匹配的实体抽取方法及系统,用于中文文本的实体抽取,其中,实体抽取方法包括:预处理步骤,结构化文本抽取步骤,非结构化文本抽取步骤和合并步骤;本发明专利技术根据设定的主题,不断从互联网获取初始关键词的近义词并加入关键词库;从结构化文本和非结构化文本中抽取关键词库中关键词的近义词,并加入关键词库;本发明专利技术采用不同的实体抽取方法从结构化文本和非结构化文本抽取出实体,并统一采用键值对的表示方式,得到该主题的最终实体集;本发明专利技术关键词库中的近义词较为丰富,能显著提高实体抽取的效果,减少漏抽取的情况。取的情况。取的情况。

【技术实现步骤摘要】
一种基于关键词匹配的实体抽取方法及系统


[0001]本专利技术属于知识图谱构建领域,更具体地,涉及一种基于关键词匹配的实体抽取方法及系统。

技术介绍

[0002]在如今大数据的时代,数据冗杂为知识的查询带来许多不便,知识图谱在此背景下顺应而生。知识图谱,通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法,与计量学引文分析、共现分析等方法相结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,以达到多学科融合目的。它能为学科研究提供切实的、有价值的参考。知识图谱将知识内容可视化,将关系结构具体化,通过各个学科界的共同协作,使用可视化技术描述知识,便于查询,也能为各个学科研究提供便利有效的参考。
[0003]在技术快速发展的当今,我们应更加需要一些专用的知识图谱架构,不仅方便人们了解学习相关知识,也方便研究者搜寻参考,便于科技发展得到进一步的提升。
[0004]国内外有许多知识图谱的使用案例,在不同专业领域例如医学、饮食、商业等。一个知识图谱的构建,需要三个步骤:信息抽取、知识融合、知本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于关键词匹配的实体抽取方法,用于中文文本的实体抽取,其特征在于,包括以下步骤:(1)预处理步骤:从待处理的中文文本中抽取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;关键词库是按设定的初始关键词建立,并不断从互联网获取初始关键词的近义词加入其中;对结构化文本,执行步骤(2);对非结构化文本,执行步骤(3);(2)结构化文本抽取步骤:根据所述关键词库,对所述结构化文本进行匹配操作,得到与每个匹配关键词相对应的若干个实体,组成若干个键值对;所有的键值对组成第一实体集;执行步骤(4);(3)非结构化文本抽取步骤:根据所述关键词库,抽取所述非结构化文本中相应的句子,组成实体文本集;抽取实体文本集中相应的实体,组成第二实体集;执行步骤(4);(4)合并步骤:将所述第一实体集和第二实体集合并为最终实体集。2.如权利要求1所述的基于关键词匹配的实体抽取方法,其特征在于,所述非结构化文本抽取步骤中,组成实体文本集的过程为:根据设定的触发词集中的每个触发词,对非结构化文本进行第一次匹配操作,得到含有该触发词的一个以上的匹配词组,将每个匹配词组所在的句子以及前一个和后一个句子抽取出来;将抽取出的所有句子中的重复句子去除,剩下的句子组成实体文本集;所述触发词集中的触发词包含在所述关键词库中。3.如权利要求2所述的基于关键词匹配的实体抽取方法,其特征在于,所述组成实体文本集的过程中,对于能与多个触发词相匹配的单个匹配词组,将其匹配到一个设定的触发词,该触发词与所述多个触发词均不相同。4.如权利要求1所述的基于关键词匹配的实体抽取方法,其特征在于,所述非结构化文本抽取步骤中,组成第二实体集的过程为:根据设定的关键词集中的每个关键词,对实体文本集的每个句子进行第二次匹配操作,得到含有该关键词的若干个实体,组成若干个键值对;所有的键值对组成第二实体集;所述关键词集中的关键词包含在所述关键词库中。5.一种基于关键词匹配的实体抽取系统,用于中文文本的实体抽取,其特征在于,包括以下模块:预处理模块:用于从待处理的中文文本中抽取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;关键词库是按设定的初始关键词建...

【专利技术属性】
技术研发人员:王善和刘昊李森
申请(专利权)人:海南港航控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1