【技术实现步骤摘要】
一种多源食材数据之间的食材实体链接方法和装置
本专利技术实施例涉及食材知识图谱的构建技术,尤指一种多源食材数据之间的食材实体链接方法和装置。
技术介绍
随着知识图谱技术的发展,在基于知识图谱构建语义搜索智能问答等应用方面越来越便捷高效,在构建有关营养健康相关的知识图谱工作中,涉及构建食材类型的实体时,人们对于相同的食材实体,有着截然不同的命名和描述方式,普遍存在同一种食材拥有多种别称的情况,这表现在人们对于来源自不同营养美食网站的食材,针对同一种食材实体维护着不尽相同的食材分类以及迥异的食材名称等,这就给构建营养健康知识图谱的工作带来了挑战。
技术实现思路
本专利技术实施例提供了一种多源食材数据之间的食材实体链接方法和装置,能够高效地将来源于不同的食材数据源中的描述食材的文本信息与创建的知识图谱(或称知识库)中的食材实体进行实体链接,提高食材实体链接的准确率。为了达到本专利技术实施例目的,本专利技术实施例提供了一种多源食材数据之间的食材实体链接方法,所述方法可以包括:获取用于食材实体链接的候选食材实体集合;将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接。在本专利技术的示例性实施例中,所述获取用于食材实体链接的候选食材实体集合包括:根据第一食材数据源中的食材数据建立食材实体的知识库;根据第二食材数据源中的食材数据建立食材实体 ...
【技术保护点】
1.一种多源食材数据之间的食材实体链接方法,其特征在于,所述方法包括:/n获取用于食材实体链接的候选食材实体集合;/n将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接。/n
【技术特征摘要】
1.一种多源食材数据之间的食材实体链接方法,其特征在于,所述方法包括:
获取用于食材实体链接的候选食材实体集合;
将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接。
2.根据权利要求1所述的多源食材数据之间的食材实体链接方法,其特征在于,所述获取用于食材实体链接的候选食材实体集合包括:
根据第一食材数据源中的食材数据建立食材实体的知识库;
根据第二食材数据源中的食材数据建立食材实体的同义词库;
从任意的食材数据源中获取关于食材实体的文本数据,并通过所述文本数据组成食材实体文本数据集合;
根据所述食材实体文本数据集合、所述知识库和所述同义词库获取所述候选食材实体集合;
其中,所述第一食材数据源包括:美食杰食材百科;
所述第二食材数据源包括:《中国食物成分表》和/或维基百科。
3.根据权利要求2所述的多源食材数据之间的食材实体链接方法,其特征在于,所述根据所述食材实体文本数据集合、所述知识库和所述同义词库获取所述候选食材实体集合包括:
对所述食材实体文本数据集合中的每段文本数据进行分词;
分别计算分词结果中的字词在所述知识库中的第一词频-逆文本频率指数TF-IDF值和在所述同义词库中的第二TF-IDF值;
分别将第一TF-IDF值和所述第二TF-IDF值与预设的TF-IDF阈值相比较,并将满足所述第一TF-IDF值大于所述TF-IDF阈值和/或所述第二TF-IDF值大于所述TF-IDF阈值的字词对应的食材实体组成的集合作为所述候选食材实体集合。
4.根据权利要求2所述的多源食材数据之间的食材实体链接方法,其特征在于,所述根据第一食材数据源中的食材数据建立食材实体的知识库包括:
从所述第一食材数据源中抽取食材信息;所述食材信息包括:所有食材的类标以及每种类标中的每个食材实体对应页面的各类属性;
对所述食材信息进行清洗,以获取关于每个食材实体的符合预设要求的描述;
对清洗后的所述食材信息进行专家审核,以对关于食材实体的描述中的错误数据和不规范数据进行修改;
对经过专家审核的所述关于食材实体的描述保存到预设的食材知识图谱中,作为所述知识库。
5.根据权利要求2所述的多源食材数据之间的食材实体链接方法,其特征在于,当所述第二食材数据源为《中国食物成分表》时,所述根据第二食材数据源中的食材数据建立食材实体的同义词库包括:
使用文本读写工具,根据预设规则抽取所述《中国食物成分表》文档中的食材名称,形成食材名称集合;并使用正则表达式抽取所述食材名称对应的一个或多个食材别称,形成食材别称集合;
遍历所述食材名称集合和所述食材别称集合,使用字符串匹配法则去对齐所述知识库中食材名称和食材别称;
当对齐成功时,记录所述知识库中的相应食材实体的身份标识ID与所述《中国食物成分表》中同一食材实体的食材名称以及食材别称的映射关系,形成所述同义词库。
6.根据权利要求2或5所述的多源食材数据之间的食材实体链接方法,其特征在于,当所述第二食材数据源为所述维基百科时,所述根据第二食材数据源中的食...
【专利技术属性】
技术研发人员:朱泽春,钟敬德,
申请(专利权)人:九阳股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。