一种基于加权LDA的兽药残留知识图谱构建方法技术

技术编号:26762800 阅读:85 留言:0更新日期:2020-12-18 23:16
本发明专利技术公开了一种基于加权LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)的兽药残留知识图谱构建方法。首先,构建兽药知识框架,利用网络爬虫结合知识框架进行深层搜索并下载文献。并针对LDA主题模型存在的主题噪声以及在特征词偏向性问题,使用加权LDA方法进行主题挖掘,再次下载兽药相关文献。使用基于词典的模型完成命名实体识别和关系抽取。最后,利用Neo4j图数据库构建兽药知识图谱。利用本发明专利技术可以构建兽药残留知识图谱并找出兽药残留特点规律以及兽药残留对人体造成伤害的原因,保证肉蛋奶的质量安全,从而保护人们的身体健康和生命安全。

【技术实现步骤摘要】
一种基于加权LDA的兽药残留知识图谱构建方法
本专利技术涉及自然语言处理领域,尤其涉及一种基于加权LDA的兽药残留知识图谱构建方法。
技术介绍
食品安全问题越来越受到大家的关注,其中肉、蛋、奶食品安全问题更是重中之重。兽药在防治动物疾病、促进动物生长上有重要作用,畜产品的养殖过程离不开兽药。但是,不规范、违禁使用和滥用兽药的现象导致兽药残留超标,从而引发中毒事件。通过构建兽药残留知识图谱,找出兽药残留特点规律以及兽药残留对人体造成伤害的原因,保证肉蛋奶产品的质量安全,从而保护人们的身体健康和生命安全。兽药残留数据涉及到兽药的残留标准,兽药的抽检超标情况,兽药残留动物毒理学实验数据以及对人的危害症状等。这些数据包含结构化数据和非结构化文本数据。利用这些数据进行知识抽取和分类,构建兽药残留知识基本框架,再利用构造的兽药知识框架,再下载兽药知识相关文献。结合兽药残留知识基本框架来进行文献下载,获得兽药知识相关文献。采取LDA来进行主题挖掘,获得兽药文献中的潜在信息。LDA(LatentDirichletAllocation,狄利克雷分本文档来自技高网...

【技术保护点】
1.一种基于加权LDA的兽药残留知识图谱构建方法,其特征在于包括以下步骤:/n(1)构建兽药知识框架:使用基于层次分析和规则的方法从兽医药理学,兽医毒理学书本中抽取知识,使用基于包装器的方法从Pubchem网址获得兽药毒理相关知识,利用jieba分词工具对所述的这些语料进行去停用词、分词、词性标注最终形成词典,形成层级的兽药知识框架;/n(2)下载文献数据:利用上一步得到的词典,结合兽药名称,在Web of science上进行多层搜索,即遍历根节点到叶子节点的每一条路径,对于每一条路径上的所有词汇,进行多层结果中搜索,使用支持向量机SVM方法对于得到的文献进行分类,包含兽药知识相关和兽药知识...

【技术特征摘要】
1.一种基于加权LDA的兽药残留知识图谱构建方法,其特征在于包括以下步骤:
(1)构建兽药知识框架:使用基于层次分析和规则的方法从兽医药理学,兽医毒理学书本中抽取知识,使用基于包装器的方法从Pubchem网址获得兽药毒理相关知识,利用jieba分词工具对所述的这些语料进行去停用词、分词、词性标注最终形成词典,形成层级的兽药知识框架;
(2)下载文献数据:利用上一步得到的词典,结合兽药名称,在Webofscience上进行多层搜索,即遍历根节点到叶子节点的每一条路径,对于每一条路径上的所有词汇,进行多层结果中搜索,使用支持向量机SVM方法对于得到的文献进行分类,包含兽药知识相关和兽药知识不相关两大类,对于兽药知识相关文献,使用加权的LDA方法进行主题提取;
(3)信息抽取:基于词典的命名实体识别和关系抽取;
(4)构建知识图谱:将上述兽药领域知识的实体以及实体之间的关系,以csv格式导入Neo4j数据库中。


2.根据权利要求1所述的基于加权LDA的兽药残留知识图谱构建方法,其特征在于所述步骤(1)中构建兽药知识框架包括以下内容:
(2a)制定兽药残留知识体系结构,共包含五大部分:兽药残留、毒理绪论、对器官和系统的影响、属性和毒性;
(2b)兽药残留:包含原因、影响和危害,危害又可以分为对人体的、对食物的、对环境的危害三部分;
(2c)兽药属性:类别、理化性质、药动学、作用、应用、最高残留限量和不良反应;
(2d)兽药的毒性:毒性作用分类、常用参数、特殊风险人群、暴露途径、预防措施、吸入方式、动物实验,毒性作用分类包含性质、发生时间、部位和恢复情况,常用参数包含急性毒性、诱变性、致癌性、致畸性、急性毒性等,动物实验的对象包含小鼠、大鼠、家兔和犬等;
(2e)兽药毒理绪论:包含目的、内容和方法,方法分为生物实验和群体调查两部分;对于器官和系统的影响包含眼、皮肤、肝脏、肾脏、神经系统、血液系统、免疫系统、胃肠道、内分泌系统和呼吸系统;
(2f)每一部分若包含表格内容,放在对应的分类之下。


3.根据权利要求1所述的基于加权LDA的兽药残留知识图谱构建方法,其特征在于所述步骤(2)中多层搜索包括以下步骤:
(3a)选取的兽药:《食品安全国家标准食品中兽药最大残留限量》标准规定了267种(类)兽药在畜禽产品、水产品、蜂产品中的2191项残留限量及使用要求;
(3b)利用Selenium和chromedriver完后动态网页(Ajax)数据抓取,搜索的范围是webofscience建立数据库至今的所有文献,考虑到兽药毒理学研究的数据量较少,所以不限制期刊进行搜索;
(3c)按照兽药知识框架,从根节点到叶子节点,对于每一条路径上的所有节点,将这些关键词结合起来进行多层结果中搜索。


4.根据权利要求1所述的基于加权LDA的兽药残留知识图谱构建方法,其特征在于所述步骤(2)中建立加权LDA主题模型包括以下步骤:
(4a)LDA(latentdirichletallocation)是一种3层贝叶斯模型,它描述了文档、主题、词汇间的关系...

【专利技术属性】
技术研发人员:郑丽敏杨璐张恬
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1