一种基于深度学习的知识图谱获取方法技术

技术编号：27006822 阅读：19 留言：0更新日期：2021-01-08 17:10

本发明专利技术公开了一种基于深度学习的知识图谱获取方法，包括获取异构数据，将所述异构数据划分为N个结构数据，其中，N为大于1的整数；根据自然语言处理技术将所述N个结构数据进行相应的处理，得到词向量；将所述词向量输入至图谱神经网络模型，得到第一知识图谱；根据聚类法和词袋模型对所述第一知识图谱进行处理，得到第二知识图谱，相对于传统的自监督模式，本发明专利技术较为灵活，不同的数据源可以使用不同的方法，也可以根据不同的需求偏向和场景特征进行选择，最大化的突出每种方法的优势，更优的降低成本和提高成果精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的知识图谱获取方法
本专利技术涉及深度学习领域，尤其涉及一种基于深度学习的知识图谱获取方法。
技术介绍
知识图谱，本质上是一种揭露实体之间关系的语义网络，在逻辑结构上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储，如果用（实体1，关系，实体2）、（实体，属性，属性值）这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的Neo4j、Twitter的FlockDB、JanusGraph等，模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达，本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。大规模知识库的构建与应用需要多种智能信息处理技术的支持，通过知识抽取技术，可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素，通过知识融合，可消除实体、关系、属性等指称项与事实对象之间的歧义，形成高质量的知识库，知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库，分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。现有技术中存在这样一种知识图谱的构建方法：利用某行业工艺领域的开放数据源，建立原始资料数据库，将原始资料数据库划分为结构化、半结构化和非结构化资料，根据结构化和半结构化构建知识图谱数据层，并建立知识图谱模式层和数据层之间的映射关系，采用自监督学习法提取原始资料数据库中非结构化资料中包含的实体、关系及实体属性信...

【技术保护点】
1.一种基于深度学习的知识图谱获取方法，其特征在于，包括：/n获取异构数据，将所述异构数据划分为N个结构数据，其中，N为大于1 的整数；/n根据自然语言处理技术将所述N个结构数据进行相应的处理，得到词向量；/n将所述词向量输入至图谱神经网络模型，得到第一知识图谱；/n根据聚类法和词袋模型对所述第一知识图谱进行处理，得到第二知识图谱。/n

【技术特征摘要】
1.一种基于深度学习的知识图谱获取方法，其特征在于，包括：
获取异构数据，将所述异构数据划分为N个结构数据，其中，N为大于1的整数；
根据自然语言处理技术将所述N个结构数据进行相应的处理，得到词向量；
将所述词向量输入至图谱神经网络模型，得到第一知识图谱；
根据聚类法和词袋模型对所述第一知识图谱进行处理，得到第二知识图谱。

2.根据权利要求1所述的一种基于深度学习的知识图谱获取方法，其特征在于，获取异构数据，将所述异构数据划分为N个结构数据，其中，N为大于1的整数，包括：
获取异构数据，所述异构数据包括结构化数据、半结构化数据和非结构化数据。

3.根据权利要求1所述的一种基于深度学习的知识图谱获取方法，其特征在于，根据自然语言处理技术将所述N个结构数据进行相应的处理，得到词向量，包括：
根据所述结构化数据和所述半结构化数据构建知识库；
根据实体链接技术识别所述非结构化数据中的候选实体，并将所述候选实体消歧，得到所述知识库中的实体，所述知识库还包括实体关系和实体属性；
基于所述实体关系将所述实体与所述知识库建立连接，并将所述实体在所述知识库中向量化表示，得到词向量。

4.根据权利要求1所述的一种基于深度学习的知识图谱获取方法，其特征在于，将所述词向量输入至图谱神经网络模型，得到第一知识图谱，包括：
获取目标行业信息，所述目标行业信息包括M个节点和消息特征，其中，M为大于2的整数；
将所述消息特征从第一个节点传输至相邻节点，在所述相邻节点将所述消息特征进行处理，并将处理后的消息特征传输至下一节点，以此迭代学习，得到图谱神经网络模型；
将所述词向量输入至所述图谱神经网络模型，得到第一知识图谱。

5.根据权利要求1所述的一种基于深度学习的知识图谱获取方法，其特征在于，根据聚类法和词袋模型对所述第一知识图谱进行处理，得到第二知识图谱，包括：
获取所述第一知识图谱，并根据TF-IDF模型获取文本特征词集合，所述第一知识图谱用于表示词义序列关系，所述文本特征词集合包括多义词；
根据所述词义序列关系确定所述多义词在指定语义环境中的唯一语义；
根据所述唯一语义将所述多义词在所述文本特征词集合中进行聚类，得到第二知识图谱。

6.一种基于深度学习的知识图谱获取装置，其特征在于，包括：
获取模块：用于获取异构数据，将所述异构数据划分为N个结构数据，其中，N为大于1的整数；
处理模块：用于...

【专利技术属性】
技术研发人员：汪晖，陆建波，王恩茂，钱微夏，
申请(专利权)人：浙江万维空间信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人