一种面向健康饮食的多模态知识图谱服务平台构建方法技术

技术编号:36689777 阅读:19 留言:0更新日期:2023-02-27 19:56
本发明专利技术公开了一种面向健康饮食的多模态知识图谱服务平台构建方法,包括根据饮食领域知识体系建立健康饮食知识图谱本体模型;取得菜谱、食品营养元素和食疗相关数据,并提出本体增强的饮食知识抽取模型,自动抽取实体、关系、属性、属性值和图像,并按照知识图谱的表示方式建立饮食知识图谱;提出融合图像与饮食常识的多模态实体对齐技术,消除饮食知识图谱中的冗余实体,得到面向健康饮食的多模态知识图谱;再对面向健康饮食的多模态知识图谱进行存储,并实现面向健康饮食的多模态知识图谱可视化。本发明专利技术便于用户充分了解健康饮食相关知识并指导用户高效烹饪和健康饮食搭配,有助于支撑知识图谱的一些下游任务如可视化、搜索、问答和推荐功能。答和推荐功能。答和推荐功能。

【技术实现步骤摘要】
一种面向健康饮食的多模态知识图谱服务平台构建方法


[0001]本专利技术涉及数据挖掘和知识图谱
,更具体的说是涉及一种面向健康饮食的多模态知识图谱服务平台构建方法。

技术介绍

[0002]目前,饮食是人们生活中最关注的内容之一,随着互联网的发展和普及,现在已经有一些菜谱网站和应用软件可以提供菜谱信息,然而,这些网站和应用软件都只包含每道菜品的固定条目信息,仅提供了基于关键词的搜索功能,由于没有建立菜品、食材和菜品属性之间的深层次关联,从而机器难以理解和处理这些菜谱相关的语义知识,无法提供良好的人机交互功能,导致人们无法高效取得和利用菜谱知识。
[0003]人工智能领域中的知识图谱可以将互联网中的数据和人类积累的知识表示为实体和关系组成的有向图,以此来建模世界万物之间的关联关系,便于机器存储、处理和利用知识,进一步利用知识图谱为人们提供高效检索和推理服务。但是,当前还没有系统的菜谱本体模型,导致难以构建全面和高质量的面向健康饮食的多模态知识图谱。此外,饮食领域相关的菜谱数据来源多种多样,包括半结构化数据、形式如文本与图像的非结构化数据,由于饮食领域数据包含的实体类型与关系及属性与其它非饮食领域差别较大,导致通用的知识抽取方法和面向非饮食领域的知识抽取方法都无法直接用于饮食相关的数据的知识抽取,因此,针对饮食相关的数据需要设计特定的知识抽取方法从中抽取实体、关系和属性信息。同时,考虑到饮食领域中普遍存在实体的多词同义问题,从不同来源抽取得到的相同含义而表达不同的实体会导致知识图谱的冗余,影响知识图谱的存储和应用,因此如何面向饮食领域进行实体对齐来提高知识图谱的质量非常重要。进一步,为了帮助人们从面向健康饮食的多模态知识图谱中直观地取得健康饮食知识,需要实现面向健康饮食的多模态知识图谱的可视化。
[0004]针对上述问题,国内外已有一些在菜谱领域运用知识图谱相关的方法。专利202011489915.5设计了一种基于知识图谱的组合菜谱生成方法,主要考虑了多人就餐时利用态知识图谱进行菜品的组合;专利202110105393.2和专利202110977544.3分别依靠用户收藏菜谱历史行为数据和用户运动信息来设计菜谱推荐方法,实现了个性化菜谱推荐功能;然而,当前在菜谱领域运用知识图谱的方法都基于预设的已有知识图谱,没有针对饮食领域的知识体系专门研究如何构建健康饮食知识图谱本体模型和针对多源菜谱数据的知识抽取技术,因而无法构建相对完备且实用的面向健康饮食的多模态知识图谱,同时,已有方法忽略了饮食领域中的实体冗余问题,无法保证知识图谱的质量,此外,当前方法缺乏对面向健康饮食的多模态知识图谱的可视化,无法以良好的人机交互的方式直观展示面向健康饮食的多模态知识图谱中的关联信息,难以充分挖掘和利用菜谱相关的各类知识。
[0005]因此,如何构建一种面向健康饮食的多模态知识图谱是本领域技术人员亟需解决的问题。

技术实现思路

[0006]有鉴于此,本专利技术提供了一种面向健康饮食的多模态知识图谱服务平台构建方法,通过梳理饮食领域的知识体系建立健康饮食知识图谱本体模型,进而针对饮食相关数据设计本体增强的饮食知识抽取模型、融合图像与饮食常识的多模态实体对齐技术以构建高质量的面向健康饮食的多模态知识图谱,提供知识图谱可视化服务,直观展示饮食领域中不同实体间关联信息和实体的属性信息,使得人们更高效和充分地利用饮食知识。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]一种面向健康饮食的多模态知识图谱服务平台构建方法,具体步骤如下:
[0009]步骤1:根据饮食领域知识体系,建立健康饮食知识图谱本体模型;
[0010]步骤2:利用健康饮食知识图谱本体模型,获得包含菜谱、食品营养元素和食疗的相关数据;
[0011]步骤3:基于健康饮食知识图谱本体模型构建饮食知识抽取模型,从菜谱、食品营养元素和食疗的相关数据中自动抽取实体、关系、属性、属性值和图像,并将这些信息按照知识图谱的表示方式建立健康饮食多模态知识图谱;
[0012]步骤4:采用融合图像与饮食常识的多模态实体对齐方法消除所述饮食知识图谱的冗余实体,获得高质量的面向健康饮食的多模态知识图谱;
[0013]步骤5:将所述面向健康饮食的多模态知识图谱存储至构建的服务平台中,并进行可视化显示。
[0014]优选的,所述步骤1的具体步骤为:根据人们日常生活中对健康饮食的需求,通过分析饮食领域的常识和菜谱网站中的数据特点,建立健康饮食知识体系,根据饮食知识特性设定菜谱、食物营养、食疗相关的层次化概念、概念间的关系、属性及其对应的值域,建立健康饮食知识图谱本体模型;其中,层次化概念指饮食领域中存在上下位层次关联的概念,关系指一些概念之间具有的语义关联,属性及其值域指一些属性对应的属性值其取值应该被限制在一定的范围内。
[0015]优选的,所述步骤2中获得相关数据的方式包括但不限于:结合健康饮食知识图谱本体模型编写爬虫脚本,通过爬虫脚本从网站中自动爬取菜谱、食品营养元素、食疗相关网页数据,其中包括形式为信息框的半结构化数据与形式为文本和图像的非结构化数据,同时利用介绍菜品或食材的网页主题词为图像标注菜品或食材名称。
[0016]优选的,所述步骤3的具体步骤为:根据半结构化数据与非结构化数据构建本体增强的饮食知识抽取模型,包括包装器和实体关系联合抽取模型,包装器从半结构化数据中自动提取实体、属性、属性值和实体之间的关系,实体关系联合抽取模型从非结构化数据中自动抽取实体、属性、属性值和实体之间的关系;
[0017]优选的,根据健康饮食知识图谱本体模型中包含概念的数据对应的节点,采用XPath表达式构造包装器;
[0018]基于建立的健康饮食知识图谱本体模型设计包装器,由于菜谱、食品营养元素、食疗相关网页的页面结构相对固定且有明显的规律,因此通过分析HTML网页中属于健康饮食知识图谱本体模型所包含概念的数据对应的节点,设计XPath表达式来构造包装器以从半结构化数据中自动提取实体、属性、属性值和实体之间的关系。
[0019]优选的,构建的实体关系联合抽取模型包括实体识别子模型和关系抽取子模型,
可以从非结构化文本数据中自动抽取实体及其之间的关系、实体及其属性和对应的属性值;属性包含但不限于菜品或食材的图像、主料、辅料、配料、口味、烹饪时间、烹饪难度、烹饪步骤等;关系包含但不限于属于、适宜人群、选材、菜系、菜型、功效等;将每个实体关联的信息以(实体,关系,实体)或(实体,属性,属性值)三元组结构进行组织,进一步按照知识图谱的表示方式将三元组结构信息转换为饮食知识图谱,饮食知识图谱的表示方式包括但不限于RDF、RDFS、OWL、N

Triples、XML。
[0020]优选的,实体关系联合抽取模型的构建过程为:
[0021]步骤321:所述实体识别子模型采用BERT模型,提取文本中每个字符的上下文特征,并利用条件随机场CRF计算所有命名实体标签序列的概率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,具体步骤如下:步骤1:根据饮食领域知识体系,建立健康饮食知识图谱本体模型;步骤2:利用健康饮食知识图谱本体模型,获得包含菜谱、食品营养元素和食疗的相关数据;步骤3:基于健康饮食知识图谱本体模型构建饮食知识抽取模型,从菜谱、食品营养元素和食疗的相关数据中自动抽取实体、关系、属性、属性值和图像,并按照知识图谱的表示方式建立饮食知识图谱;步骤4:采用融合图像与饮食常识的多模态实体对齐方法消除所述饮食知识图谱的冗余实体,获得面向健康饮食的多模态知识图谱;步骤5:将所述面向健康饮食的多模态知识图谱存储至构建的服务平台中,并进行可视化显示。2.根据权利要求1所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,所述步骤1的具体过程为:根据用户对健康饮食的需求,通过分析饮食领域的常识和菜谱网站中的数据特点,建立健康饮食知识体系;根据健康饮食知识特性设定菜谱、食物营养、食疗相关的层次化概念、概念间的关系、属性及其对应的值域,建立健康饮食知识图谱本体模型。3.根据权利要求1所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,所述步骤2中获得相关数据的方式为:结合健康饮食知识图谱本体模型编写爬虫脚本,通过爬虫脚本从网站中自动爬取菜谱、食品营养元素、食疗相关网页数据,其中包括形式为信息框的半结构化数据与形式为文本和图像的非结构化数据,同时利用介绍菜品或食材的网页主题词为图像标注菜品或食材名称。4.根据权利要求3所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,所述步骤3中根据半结构化数据与非结构化数据构建本体增强的饮食知识抽取模型,包括包装器和实体关系联合抽取模型;包装器从半结构化数据中自动提取实体、属性、属性值和实体之间的关系;实体关系联合抽取模型从非结构化数据中自动抽取实体、属性、属性值和实体之间的关系。5.根据权利要求4所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,根据HTML网页中属于健康饮食知识图谱本体模型中所包含概念的数据对应的节点,采用XPath表达式构造包装器。6.根据权利要求4所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,构建的实体关系联合抽取模型包括实体识别子模型和关系抽取子模型,从非结构化文本数据中自动抽取实体及其之间的关系、实体及其属性和对应的属性值;属性包含菜品或食材的图像;将每个实体关联的信息以实体

关系

实体或实体

属性

属性值的三元组结构进行组织;知识图谱的表示方式将三元组结构信息转换为饮食知识图谱;饮食知识图谱的表示方式包括RDF、RDFS、OWL、N

Triples和XML。7.根据权利要求6所述的一种面向健康饮食的多模态知识图谱服务平台构建方法,其特征在于,实体关系联合抽取模型的构建过程为:步骤321:所述实体识别子模型采用BERT模型,提取文本中每个字符的上下文特征,并
利用条件随机场CRF计算所有命名实体标签序列的概率,表达式为:其中,X和Y分别表示文本输入序列和命名实体标签序列;y
i
和y
i+1
表示命名实体标签序列Y中的第i个和第i+1个标签;表示通过BERT模型得到的第i个字符的特征表示;Y

表示任意命名实体标签序列;y

i
和y

i+1
表示命名实体标签序列Y

中的第i个和第i+1个标签;分别代表条件随机场CRF的参数;P(Y|X)表示输入为文本输入序列X输出为命名实体标签序列Y的概率;求解最优命名实体标签序列的目标函数为:L
ner
=argmaxP(Y|X);步骤322:构建关系抽取子模块提取命名实体标签序列中实体类型部分;将实体类型在健康饮食知识图谱本体模型中关联的关系或属性作为新增的标签序列Y
o
,与实体识别子模块得到的命名实体标签序列输入嵌入层中,得到命名实体标签序列向量表示s
Y
和新增的标签序列向量表示将命名实体标签序列向量表示s
Y
和新增的标签序列向量表示联合输入关系分类器中,得到关系抽取的结果,关系分类器表示为:联合输入关系分类器中,得到关系抽取的结果,关系分类器表示为:其中,W1、W2均表示可学习的权重矩阵;b1为偏差向量;代表s
Y
和向量拼接后的转置;h为隐向量;r
i
表示第i个关系的概率;[W1h
T
]
i
和[W1h
T
]
j
分别表示W1h
T
的第i维和第j维数值;ReLU表示整形线性单元函数,具体为:其中,x表示变量;优化关系分类器的目标...

【专利技术属性】
技术研发人员:牛广林李波黄龚
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1