用于知识图谱的知识抽取方法、装置、存储介质和设备制造方法及图纸

技术编号:37674501 阅读:22 留言:0更新日期:2023-05-26 04:38
本发明专利技术实施例提供一种用于知识图谱的知识抽取方法、装置、存储介质和设备,该方法包括:构建领域知识同义词库,获得领域内非结构化文档数据,对非结构化文档数据和同义词库进行解析并进行相关处理,对解析后的非结构文档数据进行实体、关系和属性的可视化标注,获得标注的样本数据,利用标注的样本数据对预先设置的通用模型进行训练获得应用模型,根据业务要求可视化定义业务规则模型,利用业务规则模型和应用模型自动对所述实体、关系及属性进行抽取,将抽取的数据接入图数据库。本发明专利技术能够对非结构化文档进行标注及实现自动化知识抽取。取。取。

【技术实现步骤摘要】
用于知识图谱的知识抽取方法、装置、存储介质和设备


[0001]本专利技术涉及数据处理
,尤其涉及一种用于知识图谱的知识抽取方法、装置、存储介质和设备。

技术介绍

[0002]随着知识图谱相关技术的发展,包括电力、工业、金融等多个行业都已经具备知识图谱相关的应用。但是现有知识图谱相关的应用大多是基于结构化数据做知识图谱的入图和上层应用。企业内部很多非结构化知识都散落在各处很难深度利用起来。随着自然语言处理技术的日新月异,越来越多的企业都开始将目光放在非结构化数据的处理和应用上,借此挖掘更多的知识和业务价值。
[0003]针对会议记录、规章制度、操作手册等非结构化文档的处理,大多按照一定业务规则提前进行数据的处理,一旦业务规则发生变化,需要重新做对应的数据处理工作,人力成本和时间成本成指数上涨。为了解决这一问题,一些厂商也陆续研发出对应的标注平台,然而,这些标注平台往往为了针对单个非结构化文档进行标注,缺乏一整套的管理能力,也无法跟图谱进行无缝对接,标注好的数据也往往需要再次进行处理后才能支撑上层业务应用。
>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种用于知识图谱的知识抽取方法,其特征在于,所述方法包括:构建领域知识同义词库;获得领域内非结构化文档数据;对所述非结构化文档数据和所述同义词库进行解析并进行相关处理;对解析后的所述非结构文档数据进行实体、关系和属性的可视化标注,获得标注的样本数据;利用所述标注的样本数据对预先设置的通用模型进行训练获得应用模型;根据业务要求可视化定义业务规则模型;利用所述业务规则模型和应用模型自动对所述实体、关系及属性进行抽取,将抽取的数据接入图数据库。2.根据权利要求1所述的方法,其特征在于,对解析后的所述非结构文档数据上进行实体、关系和属性的可视化标注,获得标注的样本数据包括:将解析后的所述非结构文档数据按照预先定义好的规则或者输入预先训练好的模型中进行实体、关系和属性的预标注处理;对预标注处理后的标注数据进行手动验证,获得标注的样本数据。3.根据权利要求1所述的方法,其特征在于,根据业务要求,以正则表达式的方式可视化定义业务规则模型。4.根据权利要求1所述的方法,其特征在于,所述同义词库、所述业务规则模型存储于关系型数据库中;所述非结构化文档数据、所述应用模型存储于对象存储数据库中,解析后的所述非结构化文档数据存储于关系型数据库中;所述标注的样本数据及抽取的数据均存储在关系型数据库中。5.根据权利要求4所述的方法,其特征在于,所述抽取的数据以实体关系属性的三元组,以二维表的形式存储于所述关系型数据库中。6.一种用于知识图谱的知识...

【专利技术属性】
技术研发人员:杨娟翟士丹朱芳娟薛耀华鲍红飞
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1