知识图谱生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26342638 阅读:12 留言:0更新日期:2020-11-13 20:36
本发明专利技术涉及一种大数据技术,揭露了一种知识图谱生成方法,包括:将爬取的文本集中文本进行聚类和特征词提取,得到聚类文本集和特征词集,并识别所述聚类文本集和特征词集中存在的属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词向量集;从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量,得到筛选向量,并计算任意两个筛选向量之间的距离值;根据所述距离值进行知识图谱的建模,生成对应的知识图谱。此外,本发明专利技术还涉及区块链技术,所述特征词集可存储于区块链中。本发明专利技术可以提高知识图谱的全面性。本发明专利技术还适用于智慧政务领域,从而推动智慧城市的建设。

【技术实现步骤摘要】
知识图谱生成方法、装置、电子设备及存储介质
本专利技术涉及大数据
,尤其涉及一种知识图谱生成方法、装置、电子设备及存储介质。
技术介绍
知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,以结构化的形式描述客观世界中的概念、实体及其关系。知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。当前的知识图谱通常是抽取数据中的实体信息及实体之间的属性关系,汇总所述属性关系生成的。但通过上述方法生成的知识图谱,并没有考虑到数据中存在的隐含的实体关系,导致最终生成的知识图谱不够全面。
技术实现思路
本专利技术提供一种知识图谱生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高知识图谱的全面性。为实现上述目的,本专利技术提供的一种知识图谱生成方法,包括:爬取文本集,将所述文本集中相同类型的文本进行聚类,生成一个或者多个聚类文本集;识别所述聚类文本集中文本之间的基本文本属性关系;提取所述聚类文本集中每一个聚类文本的特征词,得到特征词集,并识别所述特征词集中特征词之间的特征词属性关系;汇总所述基本文本属性关系和所述特征词属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词向量集;从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量,得到筛选向量,并计算任意两个筛选向量之间的距离值;在所述距离值不大于预设距离值时,识别对应筛选向量之间的隐含属性关系向量,并对所述特征词向量集、节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模,生成第一图谱向量空间,将所述第一图谱向量空间转化为第一知识图谱;在所述距离值大于预设距离值时,对所述特征词向量集和节点属性关系向量进行文本-属性关系建模,生成第二图谱向量空间,将所述第二图谱向量空间转化为第二知识图谱。可选地,所述爬取文本集包括:获取待爬取文本的网站页面,并侦测所述网站页面的埋点控件;根据所述埋点控件,生成待爬取文本的配置参数表;根据所述配置参数表,采集所述网站页面中的文本,得到所述文本集。可选地,述识别所述聚类文本集中文本之间的基本文本属性关系,包括:提取所述聚类文本集中的实体词语;根据提取的所述实体词语,及利用预设的实体属性关系图确定所述聚类文本集中文本之间的基本文本属性关系。可选地,所述提取所述聚类文本集中每一个聚类文本的特征词包括:对所述每一个聚类文本进行分词,得到词语集,根据所述词语集,执行所述特征词的提取。可选地,所述对所述每一个聚类文本进行分词,得到词语集,包括:删除所述聚类文本中的停用词,得到目的聚类文本;筛选所述目的聚类文本中的词条,生成初始词条集;对所述初始词条集进行前缀切分,得到所述词语集。可选地,所述计算任意两个筛选向量之间的距离值,包括:利用下述方法计算任意两个筛选向量之间的距离值:其中,T(x,y)表示筛选向量之间的距离值,x表示筛选向量x,y表示筛选向量y,表示筛选向量x的第i个向量值,表示筛选向量y的第i个向量值。可选地,所述第一知识图谱和第二知识图谱的界面为可视化界面。为了解决上述问题,本专利技术还提供一种知识图谱生成装置,所述装置包括:爬取模块,用于爬取文本集,将所述文本集中相同类型的文本进行聚类,生成一个或者多个聚类文本集;识别模块,用于识别所述聚类文本集中文本之间的基本文本属性关系;所述识别模块,还用于提取所述聚类文本集中每一个聚类文本的特征词,得到特征词集,并识别所述特征词集中特征词之间的特征词属性关系;汇总及转换模块,用于汇总所述基本文本属性关系和所述特征词属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词向量集;筛选及计算模块,用于从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量,得到筛选向量,并计算任意两个筛选向量之间的距离值;所述识别模块,还用于识别所述距离值是否大于预设距离值;生成模块,用于在所述距离值不大于预设距离值时,识别对应筛选向量之间的隐含属性关系向量,并对所述特征词向量集、节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模,生成第一图谱向量空间,将所述第一图谱向量空间转化为第一知识图谱;所述生成模块,还用于在所述距离值大于预设距离值时,对所述特征词向量集和节点属性关系向量进行文本-属性关系建模,生成第二图谱向量空间,将所述第二图谱向量空间转化为第二知识图谱。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的知识图谱生成方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的知识图谱生成方法。本专利技术实施例首先识别爬取的聚类文本之间的基本文本属性关系以及聚类文本中特征词的特征词属性关系,汇总所述文本属性关系和所述特征词属性关系,生成节点属性关系,并将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词向量集,通过爬取的手段保证了聚类文本的实时性,及基于所述节点属性关系的确定,可以直观的反应出聚类文本之间和特征词之间的关系,保障了知识图谱生成的前提;其次,本专利技术实施例计算所述特征词向量集中不具有特征词属性关系的特征词向量之间的距离值,可以识别出特征词之间存在的隐含属性关系,保障知识图谱生成的全面性;进一步地,本专利技术实施例若所述距离值不大于预设距离值,则生成对应特征词向量之间的隐含属性关系向量,并对所述特征词向量、节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模,得到第一知识图谱,若所述距离值大于预设距离值,则对所述特征词向量和节点属性关系向量进行文本-属性关系建模,得到第二知识图谱,基于所述第一知识图谱和第二知识图谱,可以直观形象的全面展示出政策之间的属性关系,从而可以确定政策之间较为全面的关联关系,进而可以提高生成的知识图谱的全面性。附图说明图1为本专利技术一实施例提供的知识图谱生成方法的流程示意图;图2为本专利技术第一实施例中图1提供的知识图谱方法步骤S1的流程示意图;图3为本专利技术第一实施例中图1提供的知识图谱方法步骤S2的流程示意图;图4为本专利技术一实施例提供的知识图谱生成装置的模块示意图;图5为本专利技术一实施例提供的实现知识图谱生成方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结本文档来自技高网...

【技术保护点】
1.一种知识图谱生成方法,其特征在于,所述方法包括:/n爬取文本集,将所述文本集中相同类型的文本进行聚类,生成一个或者多个聚类文本集;/n识别每个所述聚类文本集中文本之间的基本文本属性关系;/n提取所述聚类文本集中每一个聚类文本的特征词,得到特征词集,并识别所述特征词集中特征词之间的特征词属性关系;/n汇总所述基本文本属性关系和所述特征词属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集分别转换为节点属性关系向量和特征词向量集;/n从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量,得到筛选向量,并计算任意两个筛选向量之间的距离值;/n在所述距离值不大于预设距离值时,识别对应筛选向量之间的隐含属性关系向量,并对所述特征词向量集、节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模,生成第一图谱向量空间,将所述第一图谱向量空间转化为第一知识图谱;/n在所述距离值大于预设距离值时,对所述特征词向量集和节点属性关系向量进行文本-属性关系建模,生成第二图谱向量空间,将所述第二图谱向量空间转化为第二知识图谱。/n

【技术特征摘要】
1.一种知识图谱生成方法,其特征在于,所述方法包括:
爬取文本集,将所述文本集中相同类型的文本进行聚类,生成一个或者多个聚类文本集;
识别每个所述聚类文本集中文本之间的基本文本属性关系;
提取所述聚类文本集中每一个聚类文本的特征词,得到特征词集,并识别所述特征词集中特征词之间的特征词属性关系;
汇总所述基本文本属性关系和所述特征词属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集分别转换为节点属性关系向量和特征词向量集;
从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量,得到筛选向量,并计算任意两个筛选向量之间的距离值;
在所述距离值不大于预设距离值时,识别对应筛选向量之间的隐含属性关系向量,并对所述特征词向量集、节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模,生成第一图谱向量空间,将所述第一图谱向量空间转化为第一知识图谱;
在所述距离值大于预设距离值时,对所述特征词向量集和节点属性关系向量进行文本-属性关系建模,生成第二图谱向量空间,将所述第二图谱向量空间转化为第二知识图谱。


2.如权利要求1所述的知识图谱生成方法,其特征在于,所述爬取文本集包括:
获取待爬取文本的网站页面,并侦测所述网站页面的埋点控件;
根据所述埋点控件,生成待爬取文本的配置参数表;
根据所述配置参数表,采集所述网站页面中的文本,得到所述文本集。


3.如权利要求1所述的知识图谱生成方法,其特征在于,所述识别所述聚类文本集中文本之间的基本文本属性关系,包括:
提取所述聚类文本集中的实体词语;
根据提取的所述实体词语,及利用预设的实体属性关系图确定所述聚类文本集中文本之间的基本文本属性关系。


4.如权利要求1所述的知识图谱生成方法,其特征在于,所述提取所述聚类文本集中每一个聚类文本的特征词包括:
对所述每一个聚类文本进行分词,得到词语集,根据所述词语集,执行所述特征词的提取。


5.如权利要求4所述的知识图谱生成方法,其特征在于,所述对所述每一个聚类文本进行分词,得到词语集,包括:
删除所述聚类文本中的停用词,得到目的聚类文本;
筛选所述目的聚类文本中的词条,生成初始词条集;
对所述初始词条集进行前缀切分,得到所述词语集。


6.如权利要求1所述的知识图谱生...

【专利技术属性】
技术研发人员:陈芷昕
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1