【技术实现步骤摘要】
一种食品安全知识图谱及相关智能问答系统的构建方法
本专利技术涉及计算机数据处理
,具体是指一种食品安全知识图谱及相关安全问答系统的构建方法。
技术介绍
近年来食品安全问题一直是大众舆论关注的焦点,但是目前几乎没有办法能够帮助人们了解这些不合格食品产生的原因以及未来可能出现的关于食品安全问题的溯源和预警。知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,能够为学科研究提供切实的、有价值的参考。所以可以将食品安全知识与知识图谱相结合来解决现在人们所遇到的食品安全方面的问题。
技术实现思路
本专利技术的目的在于提供一种食品安全知识图谱及相关安全问答系统的构建方法以解决食品安全方面的问题。 >其采用技术方案如下本文档来自技高网...
【技术保护点】
1.一种食品安全知识图谱的构建方法,其特征在于,(1)采集数据集:使用Python脚本对网上的不合格食品信息进行爬取,根据《市场监管总局关于印发2019年食品安全监督抽检计划的通知》上附带的食品安全抽检品种和项目表将不合格食品信息分为33个大类,并将其进行初步过滤,得到初始文本数据集,再将初始文本数据集处理后导入postgrsql数据库进行清洗,得到结构化文本库;/n(2)实体抽取:实体抽取分为两个部分,一个是通用实体的抽取,采用命名实体识别技术,工具为斯坦福的CoreNLP,另一个部分是领域实体的抽取,主要依据关键词匹配算法;/n(3)关系抽取:首先对已经抽取的实体确定两 ...
【技术特征摘要】
1.一种食品安全知识图谱的构建方法,其特征在于,(1)采集数据集:使用Python脚本对网上的不合格食品信息进行爬取,根据《市场监管总局关于印发2019年食品安全监督抽检计划的通知》上附带的食品安全抽检品种和项目表将不合格食品信息分为33个大类,并将其进行初步过滤,得到初始文本数据集,再将初始文本数据集处理后导入postgrsql数据库进行清洗,得到结构化文本库;
(2)实体抽取:实体抽取分为两个部分,一个是通用实体的抽取,采用命名实体识别技术,工具为斯坦福的CoreNLP,另一个部分是领域实体的抽取,主要依据关键词匹配算法;
(3)关系抽取:首先对已经抽取的实体确定两种实体间的关系,一是公司-食品的生产关系,二是食品-不合格项目的抽检关系,再确定实体所拥有的属性关系,一是食品与生产地,二是食品与生产时间;
(4)同义词库构建:建立同义词库对实体关系和属性进行识别;
(5)RDF三元组映射:将抽取到的实体与关系转化成RDF图模型,主要为借助D2Rq工具生成映射规则并依据数据表的结构以及表间关系对其进行相应调整,可分为实体表的映射和实体表对关系表的映射;
(6)本体构建:为从网上爬取得来的数据建立食品安全本体;
(7)知识图谱存储与可视化:采用gStore对知识图谱进行存储,使用的查询语言是SPARQL,同时使用d3js脚本程序对三元组文件进行图形化展示,每个节点代表一个实体,节点之间的连线代表实体之间的关系。
2.根据权利要求1所述的一种食品安全知识图谱的构建方法,其特征在于,步骤(1)中初始文本数据集中共收集77560篇文本。
3.根据权利要求1所述的一种食品安全知识图谱的构建方法,其特征在于,步骤(2)中领域实体指不能被CoreNLP直接标注的实体,关键词匹配算法为:通过分析语法结构,对常出现的关键词进行收集并定义一个关键词库KeyDase和一个食品类型词库FoodtypeDase,依据KeyDase与FoodtypeDase获取“食品”在句中的开始位置和结束位置,实现领域实体的识别,然后在抽取食品的不合格项目时,依据国家标准文档《市场监管总局关于印发2019年食品安全监督抽检计划的通知》建立食品抽检项目词库Food...
【专利技术属性】
技术研发人员:秦丽,郝志刚,赵良,倪福川,
申请(专利权)人:华中农业大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。