一种面向非结构化数据的领域知识抽取方法技术

技术编号:36089846 阅读:16 留言:0更新日期:2022-12-24 11:06
本发明专利技术公开了一种面向非结构化数据的领域知识抽取方法,该方法为:基于双向长短时记忆神经网络及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别训练两个模型;用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体

【技术实现步骤摘要】
一种面向非结构化数据的领域知识抽取方法


[0001]本专利技术属于知识抽取
,具体涉及一种面向非结构化数据的领域知识抽取方法。

技术介绍

[0002]领域知识具有专业性强,知识载体多样,知识体系复杂等特点。在智能制造的背景下,产品的研发与制造对领域知识的需求越来越迫切,建立完善的领域知识获取、管理、共享体系能够有效提升产品研发的效率,领域知识图谱是实现这一目标的关键。知识图谱本质上是一种大规模的语义网络,旨在以实体来描述现实世界中的概念和事件,以边代表它们之间的相互关系。知识图谱的核心是由实体、属性和关系组成的三元组,在结构上可以划分为模式层和数据层,其中模式层是由概念本体和关系构成,用于描述知识图谱的结构,数据层则是在模式层的指导下通过具体数据构建的实例化的知识图谱。
[0003]领域知识图谱是管理领域知识与关系的重要手段,通过领域知识图谱可以实现对领域内的各类知识进行统一管理。因此知识图谱的构建过程是重中之重。首先需明确构建知识图谱的数据来源,在知识图谱构建的过程中,数据的来源分为结构化、半结构化、非结构化,其中结构化、半结构化数据的抽取已经较为成熟,非结构化数据的抽取仍然在发展阶段。在实际应用中,知识图谱的构建仍然以手动为主,自动构建方面也仍以结构化、半结构化为主,工艺领域需要一种针对非结构化数据的知识自动抽取方法,这将有助于实现对多源异构的复杂领域知识的管理,便于领域的设计与决策。
[0004]从非结构化数据抽取知识的方法可以分解为实体抽取和关系抽取两部分。
[0005]在实体抽取方面,随着自然语言处理(NLP)技术的发展,发展出多种基于深度学习的实体识别算法,例如循环神经网络RNN,这是一类处理序列数据的神经网络,适合处理以文本数据为主的非结构化数据,在此基础上为了避免维度爆炸的问题发展出了长短时记忆神经网络LSTM,为了加速训练又发展出了双向长短时神经网络BiLSTM,为了进一步提高抽取精度,加入了条件随机场CRF来定义损失函数。
[0006]在关系抽取方面,目前有pipeline方法、end2end等方法,前者按句子先用实体抽取器识别出其中的各个实体,然后对抽取出来的实体每两个进行组合在加上原文本句子作为关系识别器的输入进行两输入实体间的关系识别;后者也称为端到端的关系抽取,通过对每个句子做处理,直接抽取得到三元组。随着深度学习的发展,关系抽取领域发展出基于卷积神经网络CNN、基于注意力机制的关系抽取模型。
[0007]但是,上面提出的关于实体抽取、关系抽取的方法目前广泛用于通用知识领域,通用知识具有覆盖面广、数据量大等特点,因此通用领域的知识图谱通常采用自底向上进行构建,从大量的数据中抽取信息,来构成知识图谱中的实体和关系。领域知识与通用知识不同,领域知识更重视知识的专业性,因此领域知识需要有更加严谨的结构。在构建领域知识图谱时,需要采用自顶向下的方式进行构建,先设计领域知识图谱的模式层,根据模式层来确定哪些信息属于领域知识。然而目前在领域知识图谱的构建方面,仍然以手动构建为主,
管理的效率低下,处理的数据也多以结构和半结构化数据为主,面向非结构化数据的知识抽取仍然缺少系统化的方法。

技术实现思路

[0008]有鉴于此,本专利技术提供了一种面向非结构化数据的领域知识抽取方法,能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。
[0009]本专利技术是通过下述技术方案实现的:
[0010]一种面向非结构化数据的领域知识抽取方法,所述非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据;
[0011]所述抽取方法的具体步骤如下:
[0012]步骤S1,通过对领域知识概念实体与关系梳理进行梳理,建立领域知识图谱模式层;
[0013]步骤S2,对非结构化数据进行预处理,得到人工标注后的文本数据;
[0014]步骤S3,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别利用相应数据集训练所述实体抽取模型和关系抽取模型;
[0015]步骤S4,用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将所述领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体与关系一一对应的实体

关系表;
[0016]根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体

关系表,根据该实体

关系表在neo4j图数据库中建立知识图谱。
[0017]进一步的,步骤S1的具体步骤如下:
[0018]步骤S1

1,根据知识抽取的目的,对多场景领域知识概念与关系进行梳理;
[0019]步骤S1

2,根据领域知识概念实体与关系,对知识结构进行定义,建立领域知识图谱模式层。
[0020]进一步的,步骤S2的具体步骤如下:
[0021]步骤S2

1,利用文本解析工具,将非结构化数据解析为txt文件;
[0022]步骤S2

2,利用Jieba分词工具,对文本文件进行分词;
[0023]步骤S2

3,对分词后的文本做去除停用词处理;
[0024]步骤S2

4,基于BIO标注法或BIOES标注法对文本数据进行人工标注。
[0025]进一步的,步骤S3的具体步骤如下:
[0026]步骤S3

1,根据人工标注的数据,形成用于实体抽取模型和关系抽取模型训练的训练集和测试集;
[0027]步骤S3

2,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,利用相应数据集训练该模型;基于注意力机制建立关系抽取模型,利用相应数据集训练该模型;
[0028]步骤S3

3,依据精确率、召回率、F1值对实体抽取模型训练效果进行评估;根据精确率对关系抽取模型训练效果进行评估。
[0029]进一步的,在步骤S3

2中,建立实体抽取模型时:双向长短时记忆神经网络BiLSTM的BiLSTM层的输出维度与标签种类的数量相同,对每个输入w
i
,网络会输出其对应标签j的概率值p
ij
,最终获得网络的输出P,即每个输入与每个标签对应的标注概率值;条件随机场CRF计算了条件约束下的标注概率值,设y为预测的标注序列,x为文本输入序列,y

为准确的标注序列,则有
[0030][0031]其中,P(y|x)为输出P经过条件随机场约束后的概率值;分数Score可以通过下式进行计算:
[0032][0033]其中,ψ
i
(x本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向非结构化数据的领域知识抽取方法,所述非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据;其特征在于,所述抽取方法的具体步骤如下:步骤S1,通过对领域知识概念实体与关系梳理进行梳理,建立领域知识图谱模式层;步骤S2,对非结构化数据进行预处理,得到人工标注后的文本数据;步骤S3,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别利用相应数据集训练所述实体抽取模型和关系抽取模型;步骤S4,用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将所述领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体与关系一一对应的实体

关系表;根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体

关系表,根据该实体

关系表在neo4j图数据库中建立知识图谱。2.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤S1的具体步骤如下:步骤S1

1,根据知识抽取的目的,对多场景领域知识概念与关系进行梳理;步骤S1

2,根据领域知识概念实体与关系,对知识结构进行定义,建立领域知识图谱模式层。3.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤S2的具体步骤如下:步骤S2

1,利用文本解析工具,将非结构化数据解析为txt文件;步骤S2

2,利用Jieba分词工具,对文本文件进行分词;步骤S2

3,对分词后的文本做去除停用词处理;步骤S2

4,基于BIO标注法或BIOES标注法对文本数据进行人工标注。4.如权利要求1

3任一项所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤S3的具体步骤如下:步骤S3

1,根据人工标注的数据,形成用于实体抽取模型和关系抽取模型训练的训练集和测试集;步骤S3

2,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,利用相应数据集训练该模型;基于注意力机制建立关系抽取模型,利用相应数据集训练该模型;步骤S3

3,依据精确率、召回率、F1值对实体抽取模型训练效果进行评估;根据精确率对关系抽取模型训练效果进行评估。5.如权利要求4所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,在步骤S3

2中,建立实体抽取模型时:双向长短时记忆神经网络BiLSTM的BiLSTM层的输出维度与标签种类的数量相同,对每个输入w
l
,网络会输出其对应标签j的概率值p
ij
,最终获得网络的输出P,即每个输入与每个标签对应的标注概率值;...

【专利技术属性】
技术研发人员:王儒孙延劭华益威魏竹琴王国新
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1