知识图谱的生成方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:27975709 阅读:30 留言:0更新日期:2021-04-06 14:09
本申请提供了一种知识图谱的生成方法、装置、电子设备和计算机可读介质,属于知识图谱技术领域。使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。服务器在获取对象数据后,根据不同数据抽取方案抽取对象数据,使得对象数据的获取更加准确,则构建的知识图谱也更加精准。

【技术实现步骤摘要】
知识图谱的生成方法、装置、电子设备和计算机可读介质
本申请涉及知识图谱
,尤其涉及一种知识图谱的生成方法、装置、电子设备和计算机可读介质。
技术介绍
在当前的大数据时代中,每天都会产生大量的数据,企业需要从这些数据中抽取目标数据,用于构建行业知识图谱,以辅助领导层决策、跟踪事件发展状况以及风险评估。具体来说,企业很多上层的应用服务都需要根据基础信息进行决策判断,而基础信息作为数据的底层信号,因此基础信息对于上层应用具有至关重要的影响。示例性地,企业需要抽取的目标数据包括人名、地址、机构名、部门、职位、手机号、邮箱以及昵称八种信息。目前产生的数据种类繁多,良莠不齐,因此,如何从大量数据中抽取目标数据构建准确的知识图谱,就成了人工智能领域重要的研究问题。
技术实现思路
本申请实施例的目的在于提供一种知识图谱的生成方法、装置、电子设备和计算机可读介质,以解决知识图谱构建不准确的问题。具体技术方案如下:第一方面,提供了一种知识图谱的生成方法,所述方法包括:使用多种数据抽取方案从原始数据中抽取多种类型的对本文档来自技高网...

【技术保护点】
1.一种知识图谱的生成方法,其特征在于,所述方法包括:/n使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;/n利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。/n

【技术特征摘要】
1.一种知识图谱的生成方法,其特征在于,所述方法包括:
使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;
利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。


2.根据权利要求1所述的方法,其特征在于,所述使用多种数据抽取方案从原始数据中抽取多种类型的对象数据包括:
使用自然语言分析方案从原始数据中抽取用户名称、地址和机构名称;
并使用正则表达式从所述原始数据中抽取电话号码和邮箱;
并使用预设关键词从所述原始数据中抽取职位信息和部门信息。


3.根据权利要求2所述的方法,其特征在于,所述使用自然语言分析方案从原始数据中抽取地址包括:
将原始数据输入自然语言处理模型,得到所述自然语言处理模型输出的第一分词和与所述第一分词对应的备选标签;
选取所述备选标签中与地址相关联的目标标签,并将所述目标标签映射成目标元素;
根据多个所述目标元素生成目标序列;
在所述目标序列中,将各所述目标元素对应的第一分词作为地址。


4.根据权利要求2所述的方法,其特征在于,所述使用自然语言分析方案从原始数据中抽取机构名称包括:
使用自然语言分析方案从所述原始数据中识别备选机构名称;
在数据库中查找与所述备选机构名称相关联的目标机构名称,其中,所述数据库中包含所述备选机构的正确机构名称;
将所述目标机构名称作为从所述原始数据中抽取的机构名称。


5.根据权利要求2所述的方法,其特征在于,所述使用正则表达式从所述原始数据中抽取电话号码包括:
获取电话号码的预设表达式,其中,所述预设表达式包括首位数字和预设数字范围,所述预设数字范围包括至少一个子范围,每个所述子范围携带有包含的数字的数量、和包含的所述数字在号码序列中的位置;
确定所述电话号码的每个数字和所述数字所在的号码序列中的位置;
确定携带有相同位置的目标子范围和所述电话号码中的目标数字,其中,所述目标数字为非首位数字;<...

【专利技术属性】
技术研发人员:徐猛付骁弈张杰
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1