System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于食品安全领域的知识图谱构建方法技术_技高网

一种基于食品安全领域的知识图谱构建方法技术

技术编号:40539541 阅读:5 留言:0更新日期:2024-03-05 18:54
本发明专利技术涉及知识图谱技术领域,尤其涉及一种基于食品安全领域的知识图谱构建方法。包括如下步骤:S1.食品安全知识图谱构建技术路线;S2.数据集构建;S3.知识抽取;S4.知识抽取实验结果分析;S5.知识图谱可视化。为了提高知识图在该领域更好的扩展性和适用性,本发明专利技术构建的食品安全事件知识图谱仍需从两个方面进行完善。一是知识方面,数据规模还不够庞大,需要通过知识补全的方式来进行壮大知识库,以助于更新本体层和数据层,丰富语义信息。二是方法层面,采用低维向量表示实体和关系,探索深度学习知识推理让其自动产生新知识,是未来扩充知识库可以考虑的方法。

【技术实现步骤摘要】

本专利技术涉及知识图谱,尤其涉及一种基于食品安全领域的知识图谱构建方法


技术介绍

1、知识图谱以结构化的形式提供了统一的、标准化的概念术语,进而可以有效地组织数据和表示知识。它可以将各种来源的异构数据融为一体,转化为可重复使用的数字化系统。这使得各大领域包括食品安全领域多来源的数据信息得以充分利用,而不再是信息分散孤立的形式。知识图谱最早是由google公司为完善搜索引擎系统于2012年提出的。在通用领域,目前已有dbpedia、freebase、yago等具有代表性的大型知识图谱。通用领域知识图谱强调的是知识的广度,含有多方面、多维度的常识性知识,而专业领域对知识获取的质量要求高,知识表示粒度细。领域知识图谱很好地解决了这个问题,领域知识图谱又叫垂直知识图谱。食品安全事件数据种类繁杂,来源多样,搭建食品安全事件领域的知识图谱,可供相关监管机构快速准确查询到问题食品的信息,以便于高效地采取措施,实施预警,科学预防食品安全事件的再发生。

2、知识图谱构建方法主要分为自顶向下、自底向上和两者相结合三种。自顶向下方式先进行本体构建,从顶层出发细化模式层,再基于数据完成信息抽取和图谱构建。这种方式是先确定图谱的数据模型,再根据模型去填充数据,适用于构建领域知识图谱。自底向上的构建方式侧重于数据层,思想是利用抽取技术把得到的三元组添加到图谱中,模式层的构建是对数据进行向上归纳抽出的知识,更适用于数据范围广的通用领域图谱的构建。由于食品安全领域数据的领域性和专业性,本专利技术使用的是自顶向下和自顶向下相结合的构建方法,自顶向下构建本体层,自顶向下构建数据层。

3、知识抽取包括命名实体识别和关系抽取。中文命名实体识别研究经历了基于规则的方法、基于统计模型的方法、基于深度学习的方法,目前普遍使用基于深度学习的方法。基于深度学习的方法摒弃了早期的规则,是对标注的语料进行模型学习,节省时间成本的同时还大大提高了准确率。在传统机器学习中,命名实体识别是序列标注任务,主要采取的处理实体的算法是隐马尔可夫模型(hmm)和条件随机场(crf)。随着深度学习的兴起,bilstm-crf成为知识抽取研究的一大热点。张丹提出的attention-bilstm-crf在食品安全命名实体识别中取得了较好的效果。预训练模型bert[9]的提出在多个自然语言领域都取得了不错的效果,qingchuan zhang等人提出的bert-bilstm-crf可获取句子的全局依赖并捕获其结构特征,能较好地解决命名实体识别任务一词多义的现象,在食品安全领域取得了不错的效果。谢庆提出的基于albert的知识抽取方法在电力变压器运维领域取得了很好的效果。李明扬等人将自注意力机制(att)运用在weibo ner语料库上,注意力机制能够捕捉上下文信息,有效地提升了模型的正确率。所以本专利技术对于命名实体识别任务在albert-bilstm-crf的基础上加入注意力机制并应用到食品安全领域。对于关系抽取,武小平等提出的bert-cnn模型应用于心血管疾病数据集上,取得了不错的效果。王亚等提出的gal-capsnet(融合对抗训练和胶囊网络)在食品安全关系抽取上取得了较好的效果。赵良等人提出的bert和改进pcnn抽取模型在食品安全领域取得了不错的效果。本专利技术的关系抽取模型就是沿用这一思路展开的。

4、中国专利cn110633364a公开了基于图数据库的食品安全知识图谱构建方法和展示模式,从不同数据源获取食品安全原始数据;利用开源的词法工具和食品安全词典进行命名实体识别,实现食品安全领域构建食品安全知识图谱,动态重组知识图谱展示模式,提升食品安全领域数据管理效率以及使用的灵活性。由于食品安全领域涉及的实体不仅专业领域强,如“吡虫啉”、“地西泮”、“4-氯苯氧乙酸钠”等,而且实体类型多且复杂。如何从海量多源的食品数据中抽取知识是一个具有挑战性的问题。目前还没有大规模且质量高的食品安全领域标注语料库。


技术实现思路

1、本专利技术对食品安全数据进行了搜集与整理,并选取合适的抽取模型进行知识抽取,构建了食品安全事件知识图谱。

2、本专利技术提供了一种基于食品安全领域的知识图谱构建方法,包括如下步骤:

3、s1.食品安全知识图谱构建技术路线;

4、s2.数据集构建;

5、s3.知识抽取;

6、s4.知识抽取实验结果分析;

7、s5.知识图谱可视化。

8、作为一种优选的实施方式,所述食品安全知识图谱构建技术路线包括如下步骤:

9、s101.本体层和数据层的构建;

10、s102.食品安全事件知识图谱构建方法。

11、作为一种优选的实施方式,所述本体层和数据层的构建包括如下步骤:

12、s1011.确定本体的主题领域和范围;

13、s1012.考虑重用现有本体的可能性;

14、s1013.列出本体论中的重要术语;

15、s1014.定义类及其类层次结构;

16、s1015.定义类的属性;

17、s1016.定义概念之间的关系;

18、s1017.创建实例。

19、本专利技术利用斯坦福大学的protégé本体构建工具进行本体构建,参考食品安全领域本体构建思路,构建结果如图1所示。

20、作为一种优选的实施方式,所述食品安全事件知识图谱构建方法包括:在本体层的基础上进行命名实体识别、关系抽取;命名实体识别使用albert-bilstm-att-crf模型,模型训练完成后进行实体预测,识别出实体,再把标注的实体与实体间的关系数据处理成模型所需的json的格式进行关系抽取,根据抽取的指标判断最适合的模型。

21、数据来源的多样化导致知识参差不齐,故还需对知识进行融合。知识融合是对三元组进行对齐与合并,将相同的实体通过计算识别出来并合并为一个整体的过程。本专利技术主要采用计算不同类别数据点之间的相似度的方法进行知识融合,比如“食品安全国家标准”和“国家标准”是同一个实体,“黄曲霉毒素b1”和黄曲霉毒素b1是同一个实体等。最后将融合之后的三元组数据<实体,关系,实体>数据信息存储到neo4j中进而实现图谱的可视化。构建流程如图2所示。

22、作为一种优选的实施方式,所述数据集构建包括如下步骤:

23、s201.数据集获取;

24、s202.数据预处理及标注;

25、s203.实验数据集处理。

26、作为一种优选的实施方式,所述数据集获取包括:在尚无食品安全事件公开数据集的情况下,本专利技术搜集的数据集主要有两大来源,一是利用爬虫技术从权威食品网站食品科技网(https://www.tech-food.com/news/series/1300/)上爬取的非结构化数据共计30万个字符。其中爬虫采取的是requests+lxml+xpath的方式,并利用搜索策略筛选目标url,本专利技术的搜索本文档来自技高网...

【技术保护点】

1.一种基于食品安全领域的知识图谱构建方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述食品安全知识图谱构建技术路线包括如下步骤:

3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述本体层和数据层的构建包括如下步骤:

4.根据权利要求2所述的知识图谱构建方法,其特征在于,所述食品安全事件知识图谱构建方法包括:在本体层的基础上进行命名实体识别、关系抽取;命名实体识别使用ALBERT-BILSTM-ATT-CRF模型,模型训练完成后进行实体预测,识别出实体,再把标注的实体与实体间的关系数据处理成模型所需的json的格式进行关系抽取,根据抽取的指标判断最适合的模型。

5.根据权利要求1所述的知识图谱构建方法,其特征在于,所述数据集构建包括如下步骤:

6.根据权利要求1所述的知识图谱构建方法,其特征在于,所述知识抽取包括如下步骤:

7.根据权利要求6所述的知识图谱构建方法,其特征在于,所述基于BERT-PCNN-ATT的关系抽取目的是把知识抽取成三元组,选用BERT-PCNN-ATT模型,此模型由BERT层、PCNN层、ATTENTION层3部分组成。

8.根据权利要求6所述的知识图谱构建方法,其特征在于,所述命名实体识别包括如下步骤:

9.根据权利要求8所述的知识图谱构建方法,其特征在于,所述基于ALBERT-BILSTM-ATT-CRF的实体识别使用ALBERT-BILSTM-ATT-CRF网络模型进行命名实体识别,该模型由ALBERT层、BILSTM层、ATTENTION层、CRF层4部分组成,在BILSTM提取到上下文特征后融入注意力机制,利用注意力机制给提取到的特征赋予不同的权重,注意力权重概率向量如式(2),注意力权重分配如式(3),其中ht是BILSTM层的输出向量;

10.根据权利要求1所述的知识图谱构建方法,其特征在于,所述知识抽取实验结果分析包括如下步骤:

...

【技术特征摘要】

1.一种基于食品安全领域的知识图谱构建方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述食品安全知识图谱构建技术路线包括如下步骤:

3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述本体层和数据层的构建包括如下步骤:

4.根据权利要求2所述的知识图谱构建方法,其特征在于,所述食品安全事件知识图谱构建方法包括:在本体层的基础上进行命名实体识别、关系抽取;命名实体识别使用albert-bilstm-att-crf模型,模型训练完成后进行实体预测,识别出实体,再把标注的实体与实体间的关系数据处理成模型所需的json的格式进行关系抽取,根据抽取的指标判断最适合的模型。

5.根据权利要求1所述的知识图谱构建方法,其特征在于,所述数据集构建包括如下步骤:

6.根据权利要求1所述的知识图谱构建方法,其特征在于,所述知识抽取包括如下步骤:

7.根据权利要求6所...

【专利技术属性】
技术研发人员:李建荣张盼盼孔庆慧张传雷孙慧莹
申请(专利权)人:华宇生物医药北京有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1