一种基于NLP的知识图谱构建方法技术

技术编号:24206652 阅读:45 留言:0更新日期:2020-05-20 14:57
本发明专利技术公开了一种基于NLP的知识图谱构建方法,要解决的是现有素材整理中存在的问题。本发明专利技术具体步骤如下:步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;步骤二,对半结构化数据和结构化数据采用NLP方法进行迭代训练,直至结果的loss不再往下降;步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。本发明专利技术利用NLP技术来做素材的实体及关系抽取,构建知识图谱,然后基于知识图谱做知识检索及知识问答,最终建立智能云,保护革命数字遗产。

A knowledge map construction method based on NLP

【技术实现步骤摘要】
一种基于NLP的知识图谱构建方法
本专利技术涉及知识图谱建立领域,具体是一种基于NLP的知识图谱构建方法。
技术介绍
随着近年来人们对于精神的越来越重视,相关知识也广泛在群众中流传。随着智能化技术的流传,人们也开始探索知识的智能化建立。现有的方式需要从网站、书籍、影视作品中收集大量文本素材,这些素材是非结构化的,需要做结构化的实体抽取来构建知识图谱,比如在人物的介绍中,需要提取出人物的姓名、出生日期、逝世日期、籍贯、重要生平事迹等;在景点素材中,需要提取景点名称、地点、重要事件、人物等,虽然抽取这些信息非常简单,但是面对成千上万的素材整理,将是非常巨大的工作量,人们也在进行相关方面的探索。
技术实现思路
本专利技术实施例的目的在于提供一种基于NLP的知识图谱构建方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术实施例提供如下技术方案:一种基于NLP的知识图谱构建方法,具体步骤如下:步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;步骤二,对半结构化数据和结构化数据采用NLP(NaturalLanguageProcessing,自然语言处理)方法进行迭代训练,直至结果的loss不再往下降;步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。作为本专利技术实施例进一步的方案:步骤二中还包括评估结果的效果,如果结果的效果不好,继续新增训练样本,优化模型参数,重复步骤一和步骤二,直至评估结果的效果好。作为本专利技术实施例进一步的方案:步骤一中素材来自网站、百度百科、书籍和影视作品。作为本专利技术实施例进一步的方案:步骤二中采用NPL中的BiLSTM(双向长短期循环神经网络)和CRF(条件随机场)知识抽取模型进行迭代训练,技术成熟,使用效果好。作为本专利技术实施例进一步的方案:步骤二中还包括对半结构化数据和结构化数据做人工实体、属性及关系标注,便于后续的迭代训练。作为本专利技术实施例进一步的方案:标注的数量为300-600,工作量不大,迭代训练的效果好。作为本专利技术实施例进一步的方案:BiLSTM的输出维度是tagsize,这就相当于是每个词wi映射到tag的发射概率值,设BiLSTM的输出矩阵为P,其中Pi,j代表词wi映射到tagj的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则Ai,j代表tagi转移到tagj的转移概率,对于输入序列X对应的输出tag序列y,定义分数为利用Softmax函数,我们为每一个正确的tag序列y定义一个概率值(YX代表所有的tag序列,包括不可能出现的)因而在训练中,我们只需要最大化似然概率P(y|X)即可,这里我们利用对数似然与现有技术相比,本专利技术实施例的有益效果是:本专利技术利用NLP技术来做素材的实体及关系抽取,构建知识图谱,然后基于知识图谱做知识检索及知识问答,最终建立智能云,保护数字遗产,使用效果好。附图说明图1为基于NLP的知识图谱构建方法的工作流程图。图2为基于NLP的知识图谱构建方法中红色实体和关系图。图3为基于NLP的知识图谱构建方法中BiLSTM和CRF知识抽取模型的原理图。具体实施方式下面结合具体实施方式对本专利的技术方案作进一步详细地说明。实施例1一种基于NLP的知识图谱构建方法,具体步骤如下:步骤一,通过人工及编写爬虫脚本采集素材,素材来自网站、百度百科、书籍和影视作品,素材包括结构化数据、半结构化数据和非结构化数据;步骤二,对半结构化数据和结构化数据采用NPL中的BiLSTM(双向长短期循环神经网络)和CRF(条件随机场)知识抽取模型进行迭代训练,技术成熟,使用效果好,直至结果的loss不再往下降,BiLSTM的输出维度是tagsize,这就相当于是每个词wi映射到tag的发射概率值,设BiLSTM的输出矩阵为P,其中Pi,j代表词wi映射到tagj的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则Aij代表tagi转移到tagj的转移概率,对于输入序列X对应的输出tag序列y,定义分数为利用Softmax函数,我们为每一个正确的tag序列y定义一个概率值(YX代表所有的tag序列,包括不可能出现的)因而在训练中,我们只需要最大化似然概率P(y|X)即可,这里我们利用对数似然步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。实施例2一种基于NLP的知识图谱构建方法,具体步骤如下:步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;步骤二,对半结构化数据和结构化数据做人工实体、属性及关系标注,大概标注几百个训练样本,然后通过NLP中的BiLSTM+CRF知识抽取模型进行迭代训练,直到模型loss不再往下降为止。步骤三,评估模型效果,如果效果不好,继续新增训练样本,优化模型参数,重复步骤一至步骤三,直到效果好为止。步骤四,编写程序用模型对收集的非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,具体的实体和关系见图2。步骤五,搭建好知识图谱,最终就是基于知识图谱的应用,包括知识检索、素材的智能推荐、知识问答。步骤六,知识检索,通过图数据库的Cypher查询语句进行实体和关系的检索。步骤七,素材的智能推荐,根据用户之前访问过的素材,用词向量的相似度模型做个性化推荐,推荐用户感兴趣的素材。步骤八,知识问答,基于知识图谱生成常用的问题及对应的Cypher查询语句,作为知识问答模型的训练样本,然后用seq2seq注意力模型进行训练,直到loss不再下降,得到较好的训练结果。训练结束后,就可以用这个模型进行知识问答,用户提问,模型会自动转换成对应的知识图谱查询语句,然后查询图数据库并返回结果给用户。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。本文档来自技高网...

【技术保护点】
1.一种基于NLP的知识图谱构建方法,其特征在于,具体步骤如下:/n步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;/n步骤二,对半结构化数据和结构化数据采用NLP方法进行迭代训练,直至结果的loss不再往下降;/n步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。/n

【技术特征摘要】
1.一种基于NLP的知识图谱构建方法,其特征在于,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据采用NLP方法进行迭代训练,直至结果的loss不再往下降;
步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。


2.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤二中还包括评估结果的效果,如果结果的效果不好,继续新增训练样本,优化模型参数,重复步骤一和步骤二,直至评估结果的效果好。


3.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤一中素材来自网站、百度百科、书籍和影视作品。

<...

【专利技术属性】
技术研发人员:王奇锋林朝福
申请(专利权)人:赣州市智能产业创新研究院
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1