【技术实现步骤摘要】
基于半结构化数据的生鲜食品供应链知识图谱构建方法
本专利技术涉及知识图谱构建
,具体涉及一种基于半结构化数据的生鲜食品供应链知识图谱构建方法。
技术介绍
随着中国经济的快速发展,人民的生活水平和生活品质得了改善,与此同时,对食品的质量安全问题也越来越重视。生鲜食品作为人们生活领域的主要食品来源,也受到人们越来越多的关注。相继地,部分生鲜食品品牌也推出了溯源功能,将生鲜食品所经过的生产、仓储、运输、销售等环节的供应链信息放到追溯平台供消费者查询使用。然而,这些信息大多都是存在于网页中的非结构化或半结构化数据,难以使消费者能够快速准确地找到自己所需要的信息。如何构建一个平台使消费者能够清楚地知道生鲜食品供应链上数据信息,以及它们之间的关系,快速准确地找到自己需要的信息,成为该领域需要解决的一个关键问题。当前,知识图谱快速发展,其概念最初在2012年正式由谷歌提出,并于2013年以后开始在学术界和业界普及,在智能问答、情报分析、反欺诈等都有着重要的应用。通过构建知识图谱,将生鲜食品供应链信息存储在Neo4j图数据库中,能够方便用户快速甄别生鲜食品供应链信息。然而,现有的知识图谱多是基于多数据源融合形成的,所收集的资源信息存在分布涣散、杂乱无章的特点,虽然在一定程度上提高了知识图谱的广度,但是所构建知识图谱的质量普遍不高。
技术实现思路
为克服上述现有技术的不足,本专利技术提供一种基于半结构化数据的生鲜食品供应链知识图谱构建方法。通过对半结构化数据的采集和处理,提高了所构建知识图谱的质量;采 ...
【技术保护点】
1.一种基于半结构化数据的生鲜食品供应链知识图谱构建方法,其特征在于,包括如下步骤:/n步骤1、爬虫爬取网页半结构化数据/n通过爬虫技术对相关网站进行爬取,获取生鲜食品供应链上的半结构化数据;其中,爬虫采用Scrapy框架,先用Spider进行主抓取得到目标网页的文本信息;/n步骤2、借助正则表达式获取结构化数据/n设计与所爬取半结构化数据相匹配的语义模板,再通过编写正则表达式规则将步骤1中的半结构化数据转换成结构化数据,抽取构建知识图谱所需的实体及其属性,存放到Mysql数据库中;/n步骤3、将结构化数据转换成RDF三元组数据/n使用结构化数据映射工具D2RML将结构化数据转换成RDF三元组的形式,为构建知识图谱做铺垫;在从结构化数据中进行知识映射前,首先,根据解结构化数据中的基本数据结构,包括表与表之间的联系以及每个表的含义,同时理解知识图谱的结构,然后使用D2RML语言把表中的结构化数据与知识图谱中的实体、关系关联起来;/n步骤4、构建生鲜食品供应链知识图谱/n采用知识存储映射算法将生鲜食品供应链结构化数据映射到Neo4j图数据库中,实现生鲜食品供应链数据的存储及可视化展示。/n
【技术特征摘要】
1.一种基于半结构化数据的生鲜食品供应链知识图谱构建方法,其特征在于,包括如下步骤:
步骤1、爬虫爬取网页半结构化数据
通过爬虫技术对相关网站进行爬取,获取生鲜食品供应链上的半结构化数据;其中,爬虫采用Scrapy框架,先用Spider进行主抓取得到目标网页的文本信息;
步骤2、借助正则表达式获取结构化数据
设计与所爬取半结构化数据相匹配的语义模板,再通过编写正则表达式规则将步骤1中的半结构化数据转换成结构化数据,抽取构建知识图谱所需的实体及其属性,存放到Mysql数据库中;
步骤3、将结构化数据转换成RDF三元组数据
使用结构化数据映射工具D2RML将结构化数据转换成RDF三元组的形式,为构建知识图谱做铺垫;在从结构化数据中进行知识映射前,首先,根据解结构化数据中的基本数据结构,包括表与表之间的联系以及每个表的含义,同时理解知识图谱的结构,然后使用D2RML语言把表中的结构化数据与知识图谱中的实体、关系关联起来;
步骤4、构建生鲜食品供应链知识图谱
采用知识存储映射算法将生鲜食品供应链结构化数据映射到Neo4j图数据库中,实现生鲜食品供应链数据的存储及可视化展示。
2.根据权利要求1所述的一种基于半结构化数据的生鲜食品供应链知识图谱构建方法,其特征在于:所述步骤1中,采用Scrapy框架进行爬虫工作,其步骤如下:
(1.1)引擎获取最初的请求,用Spider进行主抓取;
(1.2)引擎在调度器发出调度请求,并要求对下一个请求进行采集;
(1.3)调度器将下一个请求返回给引擎;
(1.4)引擎通过下载器中间件将请求传送给下载器;
(1.5)页面完成下载,下载器会生成一个响应并通过下载器中间件发送给引擎;
(1.6)引擎从下载器收到响应并将其发送给Spider中间件进行传递;
(1.7)Spider处理响应,并通过Spider中间件将抓取的项目和新的请求返回给引擎;
(1.8)引擎将处理后的项目发送到项目管道,然后将处理后的请求发送给调度器,然后对下一个请求进行采集;
(1.9)重复该过程,直到调度器没有更多请求。
3.根据权利要求1所述的一种基于半结构化数据的生鲜食品供应链知识图谱构建方法,其特征在于:所述步骤2中,编写正则表达式将半结构化数据处理成结构化数据,其具体步骤如下:
(2.1)输入半结构化数据文本文档;
(2.2)开始读取半结构化...
【专利技术属性】
技术研发人员:刘新亮,谷情,张梦琪,高圣乔,张腾,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。