【技术实现步骤摘要】
一种面向健康饮食的多模态知识图谱服务平台构建方法
[0001]本专利技术涉及数据挖掘和知识图谱
,更具体的说是涉及一种面向健康饮食的多模态知识图谱服务平台构建方法。
技术介绍
[0002]目前,饮食是人们生活中最关注的内容之一,随着互联网的发展和普及,现在已经有一些菜谱网站和应用软件可以提供菜谱信息,然而,这些网站和应用软件都只包含每道菜品的固定条目信息,仅提供了基于关键词的搜索功能,由于没有建立菜品、食材和菜品属性之间的深层次关联,从而机器难以理解和处理这些菜谱相关的语义知识,无法提供良好的人机交互功能,导致人们无法高效取得和利用菜谱知识。
[0003]人工智能领域中的知识图谱可以将互联网中的数据和人类积累的知识表示为实体和关系组成的有向图,以此来建模世界万物之间的关联关系,便于机器存储、处理和利用知识,进一步利用知识图谱为人们提供高效检索和推理服务。但是,当前还没有系统的菜谱本体模型,导致难以构建全面和高质量的面向健康饮食的多模态知识图谱。此外,饮食领域相关的菜谱数据来源多种多样,包括半结构化数据、形式如文本与图像的非结构化数据,由于饮食领域数据包含的实体类型与关系及属性与其它非饮食领域差别较大,导致通用的知识抽取方法和面向非饮食领域的知识抽取方法都无法直接用于饮食相关的数据的知识抽取,因此,针对饮食相关的数据需要设计特定的知识抽取方法从中抽取实体、关系和属性信息。同时,考虑到饮食领域中普遍存在实体的多词同义问题,从不同来源抽取得到的相同含义而表达不同的实体会导致知识图谱的冗余,影响知识图谱的存储和 ...
【技术保护点】
【技术特征摘要】
1.一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,具体步骤如下:步骤1:根据饮食领域知识体系,建立健康饮食知识图谱本体模型;步骤2:利用健康饮食知识图谱本体模型,获得包含菜谱、食品营养元素和食疗的相关数据;步骤3:基于健康饮食知识图谱本体模型构建饮食知识抽取模型,从菜谱、食品营养元素和食疗的相关数据中自动抽取实体、关系、属性、属性值和图像,并按照知识图谱的表示方式建立饮食知识图谱;步骤4:采用融合图像与饮食常识的多模态实体对齐方法消除所述饮食知识图谱的冗余实体,获得面向健康饮食的多模态知识图谱;步骤5:将所述面向健康饮食的多模态知识图谱存储至构建的服务平台中,并进行可视化显示。2.根据权利要求1所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,所述步骤1的具体过程为:根据用户对健康饮食的需求,通过分析饮食领域的常识和菜谱网站中的数据特点,建立健康饮食知识体系;根据健康饮食知识特性设定菜谱、食物营养、食疗相关的层次化概念、概念间的关系、属性及其对应的值域,建立健康饮食知识图谱本体模型。3.根据权利要求1所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,所述步骤2中获得相关数据的方式为:结合健康饮食知识图谱本体模型编写爬虫脚本,通过爬虫脚本从网站中自动爬取菜谱、食品营养元素、食疗相关网页数据,其中包括形式为信息框的半结构化数据与形式为文本和图像的非结构化数据,同时利用介绍菜品或食材的网页主题词为图像标注菜品或食材名称。4.根据权利要求3所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,所述步骤3中根据半结构化数据与非结构化数据构建本体增强的饮食知识抽取模型,包括包装器和实体关系联合抽取模型;包装器从半结构化数据中自动提取实体、属性、属性值和实体之间的关系;实体关系联合抽取模型从非结构化数据中自动抽取实体、属性、属性值和实体之间的关系。5.根据权利要求4所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,根据HTML网页中属于健康饮食知识图谱本体模型中所包含概念的数据对应的节点,采用XPath表达式构造包装器。6.根据权利要求4所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,构建的实体关系联合抽取模型包括实体识别子模型和关系抽取子模型,从非结构化文本数据中自动抽取实体及其之间的关系、实体及其属性和对应的属性值;属性包含菜品或食材的图像;将每个实体关联的信息以实体
‑
关系
‑
实体或实体
‑
属性
‑
属性值的三元组结构进行组织;知识图谱的表示方式将三元组结构信息转换为饮食知识图谱;饮食知识图谱的表示方式包括RDF、RDFS、OWL、N
‑
Triples和XML。7.根据权利要求6所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,实体关系联合抽取模型的构建过程为:步骤321:所述实体识别子模型采用BERT模型,提取文本中每个字符的上下文特征,并
利用条件随机场CRF计算所有命名实体标签序列的概率,表达式为:其中,X和Y分别表示文本输入序列和命名实体标签序列;y
i
和y
i+1
表示命名实体标签序列Y中的第i个和第i+1个标签;表示通过BERT模型得到的第i个字符的特征表示;Y
′
表示任意命名实体标签序列;y
′
i
和y
′
i+1
表示命名实体标签序列Y
′
中的第i个和第i+1个标签;分别代表条件随机场CRF的参数;P(Y|X)表示输入为文本输入序列X输出为命名实体标签序列Y的概率;求解最优命名实体标签序列的目标函数为:L
ner
=argmaxP(Y|X);步骤322:构建关系抽取子模块提取命名实体标签序列中实体类型部分;将实体类型在健康饮食知识图谱本体模型中关联的关系或属性作为新增的标签序列Y
o
,与实体识别子模块得到的命名实体标签序列输入嵌入层中,得到命名实体标签序列向量表示s
Y
和新增的标签序列向量表示将命名实体标签序列向量表示s
Y
和新增的标签序列向量表示联合输入关系分类器中,得到关系抽取的结果,关系分类器表示为:联合输入关系分类器中,得到关系抽取的结果,关系分类器表示为:其中,W1、W2均表示可学习的权重矩阵;b1为偏差向量;代表s
Y
和向量拼接后的转置;h为隐向量;r
i
表示第i个关系的概率;[W1h
T
]
i
和[W1h
T
]
j
分别表示W1h
T
的第i维和第j维数值;ReLU表示整形线性单元函数,具体为:其中,x表示变量;优化关系分类器的目标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。