一种面向非结构化数据的领域知识抽取方法技术

技术编号：36089846 阅读：16 留言：0更新日期：2022-12-24 11:06

本发明专利技术公开了一种面向非结构化数据的领域知识抽取方法，该方法为：基于双向长短时记忆神经网络及条件随机场建立实体抽取模型，基于注意力机制建立关系抽取模型，并分别训练两个模型；用训练好的实体抽取模型对待抽取的非结构化数据进行抽取，获得领域实体，并将领域实体以表格形式存储为领域实体表；用训练好的关系抽取模型对关系进行抽取，在领域实体表的基础上获得实体

全部详细技术资料下载

【技术实现步骤摘要】
一种面向非结构化数据的领域知识抽取方法

[0001]本专利技术属于知识抽取
，具体涉及一种面向非结构化数据的领域知识抽取方法。

技术介绍

[0002]领域知识具有专业性强，知识载体多样，知识体系复杂等特点。在智能制造的背景下，产品的研发与制造对领域知识的需求越来越迫切，建立完善的领域知识获取、管理、共享体系能够有效提升产品研发的效率，领域知识图谱是实现这一目标的关键。知识图谱本质上是一种大规模的语义网络，旨在以实体来描述现实世界中的概念和事件，以边代表它们之间的相互关系。知识图谱的核心是由实体、属性和关系组成的三元组，在结构上可以划分为模式层和数据层，其中模式层是由概念本体和关系构成，用于描述知识图谱的结构，数据层则是在模式层的指导下通过具体数据构建的实例化的知识图谱。
[0003]领域知识图谱是管理领域知识与关系的重要手段，通过领域知识图谱可以实现对领域内的各类知识进行统一管理。因此知识图谱的构建过程是重中之重。首先需明确构建知识图谱的数据来源，在知识图谱构建的过程中，数据的来源分为结构化、半结构化、非结构化，其中结构化、半结构化数据的抽取已经较为成熟，非结构化数据的抽取仍然在发展阶段。在实际应用中，知识图谱的构建仍然以手动为主，自动构建方面也仍以结构化、半结构化为主，工艺领域需要一种针对非结构化数据的知识自动抽取方法，这将有助于实现对多源异构的复杂领域知识的管理，便于领域的设计与决策。
[0004]从非结构化数据抽取知识的方法可以分解为实体抽取和关系抽取两部分。
[0005]在实体抽...

【技术保护点】

【技术特征摘要】
1.一种面向非结构化数据的领域知识抽取方法，所述非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据；其特征在于，所述抽取方法的具体步骤如下：步骤S1，通过对领域知识概念实体与关系梳理进行梳理，建立领域知识图谱模式层；步骤S2，对非结构化数据进行预处理，得到人工标注后的文本数据；步骤S3，基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型，基于注意力机制建立关系抽取模型，并分别利用相应数据集训练所述实体抽取模型和关系抽取模型；步骤S4，用训练好的实体抽取模型对待抽取的非结构化数据进行抽取，获得领域实体，并将所述领域实体以表格形式存储为领域实体表；用训练好的关系抽取模型对关系进行抽取，在领域实体表的基础上获得实体与关系一一对应的实体
‑
关系表；根据抽取得到的所有实体与关系，基于语义相似度进行知识融合，得到知识融合后的实体
‑
关系表，根据该实体
‑
关系表在neo4j图数据库中建立知识图谱。2.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法，其特征在于，步骤S1的具体步骤如下：步骤S1
‑
1，根据知识抽取的目的，对多场景领域知识概念与关系进行梳理；步骤S1
‑
2，根据领域知识概念实体与关系，对知识结构进行定义，建立领域知识图谱模式层。3.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法，其特征在于，步骤S2的具体步骤如下：步骤S2
‑
1，利用文本解析工具，将非结构化数据解析为txt文件；步骤S2
‑
2，利用Jieba分词工具，对文本文件进行分词；步骤S2
‑
3，对分词后的文本做去除停用词处理；步骤S2
‑
4，基于BIO标注法或BIOES标注法对文本数据进行人工标注。4.如权利要求1
‑
3任一项所述的一种面向非结构化数据的领域知识抽取方法，其特征在于，步骤S3的具体步骤如下：步骤S3
‑
1，根据人工标注的数据，形成用于实体抽取模型和关系抽取模型训练的训练集和测试集；步骤S3
‑
2，基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型，利用相应数据集训练该模型；基于注意力机制建立关系抽取模型，利用相应数据集训练该模型；步骤S3
‑
3，依据精确率、召回率、F1值对实体抽取模型训练效果进行评估；根据精确率对关系抽取模型训练效果进行评估。5.如权利要求4所述的一种面向非结构化数据的领域知识抽取方法，其特征在于，在步骤S3
‑
2中，建立实体抽取模型时：双向长短时记忆神经网络BiLSTM的BiLSTM层的输出维度与标签种类的数量相同，对每个输入w
l
，网络会输出其对应标签j的概率值p
ij
，最终获得网络的输出P，即每个输入与每个标签对应的标注概率值；...

【专利技术属性】
技术研发人员：王儒，孙延劭，华益威，魏竹琴，王国新，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人