一种基于深度学习的知识图谱获取方法技术

技术编号:27006822 阅读:19 留言:0更新日期:2021-01-08 17:10
本发明专利技术公开了一种基于深度学习的知识图谱获取方法,包括获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;将所述词向量输入至图谱神经网络模型,得到第一知识图谱;根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱,相对于传统的自监督模式,本发明专利技术较为灵活,不同的数据源可以使用不同的方法,也可以根据不同的需求偏向和场景特征进行选择,最大化的突出每种方法的优势,更优的降低成本和提高成果精确度。

【技术实现步骤摘要】
一种基于深度学习的知识图谱获取方法
本专利技术涉及深度学习领域,尤其涉及一种基于深度学习的知识图谱获取方法。
技术介绍
知识图谱,本质上是一种揭露实体之间关系的语义网络,在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储,如果用(实体1,关系,实体2)、(实体,属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的FlockDB、JanusGraph等,模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达,本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。大规模知识库的构建与应用需要多种智能信息处理技术的支持,通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素,通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库,知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库,分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。现有技术中存在这样一种知识图谱的构建方法:利用某行业工艺领域的开放数据源,建立原始资料数据库,将原始资料数据库划分为结构化、半结构化和非结构化资料,根据结构化和半结构化构建知识图谱数据层,并建立知识图谱模式层和数据层之间的映射关系,采用自监督学习法提取原始资料数据库中非结构化资料中包含的实体、关系及实体属性信息,并依据建立的知识图谱数据层和模式层之间的映射关系,补充知识图谱数据层,对知识图谱数据层进行知识融合,对融合后的数据进行知识推理,得到领域知识图谱,这样得到的知识库,需要融合人的思想和信息,其中,知识更新是一个重要的部分,人类的认知能力、知识储备以及业务需求都会随时间而不断递增,因此,知识图谱的内容也需要与时俱进,不论是通用知识图谱,还是行业知识图谱,它们都需要不断地迭代更新,扩展现有的知识,增加新的知识,但是由于人的思想融入而得到的知识库,虽然具有灵活性,但是不及人工智能深度学习所获得的知识图谱更全面,动态更新更快,所展示出的知识网更复杂,因此基于此所得到的知识图谱所获得的知识更加准确。
技术实现思路
本专利技术提供的一种基于深度学习的知识图谱获取方法,旨在解决现有技术中创建知识图谱需要加入人工的知识和经验而导致获取的知识图谱关系网不全面、不灵活的问题。为实现上述目的,本专利技术采用以下技术方案:本专利技术的一种基于深度学习的知识图谱获取方法,包括以下步骤:获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;将所述词向量输入至图谱神经网络模型,得到第一知识图谱;根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。获取纯文本、关系数据库、XML、图片、视频等多源异构数据,按其数据内部各项数据是否存在明确的关系名称和对应关系,将其划分为结构化数据、半结构化数据和非结构化数据,其中,结构化数据和半结构化数据用于构建知识库,所述知识库用于存储优质知识图谱,非结构化数据需要经过自然语言模型进行处理,进行实体消歧后,再与知识库中对应的实体建立连接,其中,词向量正是从这个训练好的语言模型中的副产物模型参数,将这些参数是作为输入x的某种向量化表示,这个向量就叫做词向量,将所述词向量输入至图谱神经网络模型,得到第一知识图谱,根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。作为优选,所述获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数,包括:获取异构数据,所述异构数据包括结构化数据、半结构化数据和非结构化数据。作为优选,所述根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量,包括:根据所述结构化数据和所述半结构化数据构建知识库;根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;基于所述实体关系将所述实体与所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。作为优选,所述将所述词向量输入至图谱神经网络模型,得到第一知识图谱,包括:获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;将所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;将所述词向量输入至所述图谱神经网络模型,得到第一知识图谱。作为优选,所述根据聚类法或词袋模型对所述第一知识图谱进行处理,得到第二知识图谱,包括:获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;根据所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;根据所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。一种基于深度学习的知识图谱获取装置,包括:获取模块:用于获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;处理模块:用于根据自然语言处理技术将所述获取模块获取的所述N个结构数据进行相应的处理,得到词向量;训练模块:用于将所述处理模块得到的所述词向量输入至图谱神经网络模型,得到第一知识图谱;聚类模块:用于根据聚类法和词袋模型对训练模块得到的所述第一知识图谱进行处理,得到第二知识图谱。作为优选,所述处理模块具体包括:构建单元:用于根据所述结构化数据和所述半结构化数据构建知识库;识别单元:用于根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;连接单元:用于基于所述实体关系将所述实体与所述构建单元构建的所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。作为优选,所述训练模块具体包括:第一获取单元:用于获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;学习单元:用于将所述第一获取单元获取的所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;输入单元:用于将所述词向量输入至学习单元获得的所述图谱神经网络模型,得到第一知识图谱。作为优选,所述聚类模块包括:第二获取单元:用于获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;确定单元:用于根据本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的知识图谱获取方法,其特征在于,包括:/n获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1 的整数;/n根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;/n将所述词向量输入至图谱神经网络模型,得到第一知识图谱;/n根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。/n

【技术特征摘要】
1.一种基于深度学习的知识图谱获取方法,其特征在于,包括:
获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;
根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量;
将所述词向量输入至图谱神经网络模型,得到第一知识图谱;
根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱。


2.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数,包括:
获取异构数据,所述异构数据包括结构化数据、半结构化数据和非结构化数据。


3.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,根据自然语言处理技术将所述N个结构数据进行相应的处理,得到词向量,包括:
根据所述结构化数据和所述半结构化数据构建知识库;
根据实体链接技术识别所述非结构化数据中的候选实体,并将所述候选实体消歧,得到所述知识库中的实体,所述知识库还包括实体关系和实体属性;
基于所述实体关系将所述实体与所述知识库建立连接,并将所述实体在所述知识库中向量化表示,得到词向量。


4.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,将所述词向量输入至图谱神经网络模型,得到第一知识图谱,包括:
获取目标行业信息,所述目标行业信息包括M个节点和消息特征,其中,M为大于2的整数;
将所述消息特征从第一个节点传输至相邻节点,在所述相邻节点将所述消息特征进行处理,并将处理后的消息特征传输至下一节点,以此迭代学习,得到图谱神经网络模型;
将所述词向量输入至所述图谱神经网络模型,得到第一知识图谱。


5.根据权利要求1所述的一种基于深度学习的知识图谱获取方法,其特征在于,根据聚类法和词袋模型对所述第一知识图谱进行处理,得到第二知识图谱,包括:
获取所述第一知识图谱,并根据TF-IDF模型获取文本特征词集合,所述第一知识图谱用于表示词义序列关系,所述文本特征词集合包括多义词;
根据所述词义序列关系确定所述多义词在指定语义环境中的唯一语义;
根据所述唯一语义将所述多义词在所述文本特征词集合中进行聚类,得到第二知识图谱。


6.一种基于深度学习的知识图谱获取装置,其特征在于,包括:
获取模块:用于获取异构数据,将所述异构数据划分为N个结构数据,其中,N为大于1的整数;
处理模块:用于...

【专利技术属性】
技术研发人员:汪晖陆建波王恩茂钱微夏
申请(专利权)人:浙江万维空间信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1