【技术实现步骤摘要】
知识图谱生成方法、装置、电子设备及存储介质
本专利技术涉及大数据
,尤其涉及一种知识图谱生成方法、装置、电子设备及存储介质。
技术介绍
知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,以结构化的形式描述客观世界中的概念、实体及其关系。知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。当前的知识图谱通常是抽取数据中的实体信息及实体之间的属性关系,汇总所述属性关系生成的。但通过上述方法生成的知识图谱,并没有考虑到数据中存在的隐含的实体关系,导致最终生成的知识图谱不够全面。
技术实现思路
本专利技术提供一种知识图谱生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高知识图谱的全面性。为实现上述目的,本专利技术提供的一种知识图谱生成方法,包括:爬取文本集,将所述文本集中相同类型的文本进行聚类,生成一个或者多个聚类文本集;识别所述聚类文本集中文本之间的基本文本属性关系;提取所述聚类文本集中每一个聚类文本的特征词,得到特征词集,并识别所述特征词集中特征词之间的特征词属性关系;汇总所述基本文本属性关系和所述特征词属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和 ...
【技术保护点】
1.一种知识图谱生成方法,其特征在于,所述方法包括:/n爬取文本集,将所述文本集中相同类型的文本进行聚类,生成一个或者多个聚类文本集;/n识别每个所述聚类文本集中文本之间的基本文本属性关系;/n提取所述聚类文本集中每一个聚类文本的特征词,得到特征词集,并识别所述特征词集中特征词之间的特征词属性关系;/n汇总所述基本文本属性关系和所述特征词属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集分别转换为节点属性关系向量和特征词向量集;/n从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量,得到筛选向量,并计算任意两个筛选向量之间的距离值;/n在所述距离值不大于预设距离值时,识别对应筛选向量之间的隐含属性关系向量,并对所述特征词向量集、节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模,生成第一图谱向量空间,将所述第一图谱向量空间转化为第一知识图谱;/n在所述距离值大于预设距离值时,对所述特征词向量集和节点属性关系向量进行文本-属性关系建模,生成第二图谱向量空间,将所述第二图谱向量空间转化为第二知识图谱。/n
【技术特征摘要】
1.一种知识图谱生成方法,其特征在于,所述方法包括:
爬取文本集,将所述文本集中相同类型的文本进行聚类,生成一个或者多个聚类文本集;
识别每个所述聚类文本集中文本之间的基本文本属性关系;
提取所述聚类文本集中每一个聚类文本的特征词,得到特征词集,并识别所述特征词集中特征词之间的特征词属性关系;
汇总所述基本文本属性关系和所述特征词属性关系,生成节点属性关系,将所述节点属性关系和所述特征词集分别转换为节点属性关系向量和特征词向量集;
从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量,得到筛选向量,并计算任意两个筛选向量之间的距离值;
在所述距离值不大于预设距离值时,识别对应筛选向量之间的隐含属性关系向量,并对所述特征词向量集、节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模,生成第一图谱向量空间,将所述第一图谱向量空间转化为第一知识图谱;
在所述距离值大于预设距离值时,对所述特征词向量集和节点属性关系向量进行文本-属性关系建模,生成第二图谱向量空间,将所述第二图谱向量空间转化为第二知识图谱。
2.如权利要求1所述的知识图谱生成方法,其特征在于,所述爬取文本集包括:
获取待爬取文本的网站页面,并侦测所述网站页面的埋点控件;
根据所述埋点控件,生成待爬取文本的配置参数表;
根据所述配置参数表,采集所述网站页面中的文本,得到所述文本集。
3.如权利要求1所述的知识图谱生成方法,其特征在于,所述识别所述聚类文本集中文本之间的基本文本属性关系,包括:
提取所述聚类文本集中的实体词语;
根据提取的所述实体词语,及利用预设的实体属性关系图确定所述聚类文本集中文本之间的基本文本属性关系。
4.如权利要求1所述的知识图谱生成方法,其特征在于,所述提取所述聚类文本集中每一个聚类文本的特征词包括:
对所述每一个聚类文本进行分词,得到词语集,根据所述词语集,执行所述特征词的提取。
5.如权利要求4所述的知识图谱生成方法,其特征在于,所述对所述每一个聚类文本进行分词,得到词语集,包括:
删除所述聚类文本中的停用词,得到目的聚类文本;
筛选所述目的聚类文本中的词条,生成初始词条集;
对所述初始词条集进行前缀切分,得到所述词语集。
6.如权利要求1所述的知识图谱生...
【专利技术属性】
技术研发人员:陈芷昕,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。