一种多源食材数据之间的食材实体链接方法和装置制造方法及图纸

技术编号:25756398 阅读:28 留言:0更新日期:2020-09-25 21:05
本发明专利技术实施例公开了一种多源食材数据之间的食材实体链接方法和装置,该方法包括:获取用于食材实体链接的候选食材实体集合;将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接。通过该实施例方案,实现了高效地将来源于不同的食材数据源中的描述食材的文本信息与创建的知识图谱中的食材实体进行实体链接,提高了食材实体链接的准确率。

【技术实现步骤摘要】
一种多源食材数据之间的食材实体链接方法和装置
本专利技术实施例涉及食材知识图谱的构建技术,尤指一种多源食材数据之间的食材实体链接方法和装置。
技术介绍
随着知识图谱技术的发展,在基于知识图谱构建语义搜索智能问答等应用方面越来越便捷高效,在构建有关营养健康相关的知识图谱工作中,涉及构建食材类型的实体时,人们对于相同的食材实体,有着截然不同的命名和描述方式,普遍存在同一种食材拥有多种别称的情况,这表现在人们对于来源自不同营养美食网站的食材,针对同一种食材实体维护着不尽相同的食材分类以及迥异的食材名称等,这就给构建营养健康知识图谱的工作带来了挑战。
技术实现思路
本专利技术实施例提供了一种多源食材数据之间的食材实体链接方法和装置,能够高效地将来源于不同的食材数据源中的描述食材的文本信息与创建的知识图谱(或称知识库)中的食材实体进行实体链接,提高食材实体链接的准确率。为了达到本专利技术实施例目的,本专利技术实施例提供了一种多源食材数据之间的食材实体链接方法,所述方法可以包括:获取用于食材实体链接的候选食材实体集合;将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接。在本专利技术的示例性实施例中,所述获取用于食材实体链接的候选食材实体集合包括:根据第一食材数据源中的食材数据建立食材实体的知识库;根据第二食材数据源中的食材数据建立食材实体的同义词库;从任意的食材数据源中获取关于食材实体的文本数据,并通过所述文本数据组成食材实体文本数据集合;根据所述食材实体文本数据集合、所述知识库和所述同义词库获取所述候选食材实体集合;其中,所述第一食材数据源包括:美食杰食材百科;所述第二食材数据源包括:《中国食物成分表》和/或维基百科。在本专利技术的示例性实施例中,所述根据所述食材实体文本数据集合、所述知识库和所述同义词库获取所述候选食材实体集合包括:对所述食材实体文本数据集合中的每段文本数据进行分词;分别计算分词结果中的字词在所述知识库中的第一词频-逆文本频率指数TF-IDF值和在所述同义词库中的第二TF-IDF值;分别将第一TF-IDF值和所述第二TF-IDF值与预设的TF-IDF阈值相比较,并将满足所述第一TF-IDF值大于所述TF-IDF阈值和/或所述第二TF-IDF值大于所述TF-IDF阈值的字词对应的食材实体组成的集合作为所述候选食材实体集合。在本专利技术的示例性实施例中,所述根据第一食材数据源中的食材数据建立食材实体的知识库包括:从所述第一食材数据源中抽取食材信息;所述食材信息包括:所有食材的类标以及每种类标中的每个食材实体对应页面的各类属性;对所述食材信息进行清洗,以获取关于每个食材实体的符合预设要求的描述;对清洗后的所述食材信息进行专家审核,以对关于食材实体的描述中的错误数据和不规范数据进行修改;对经过专家审核的所述关于食材实体的描述保存到预设的食材知识图谱中,作为所述知识库。在本专利技术的示例性实施例中,当所述第二食材数据源为《中国食物成分表》时,所述根据第二食材数据源中的食材数据建立食材实体的同义词库包括:使用文本读写工具,根据预设规则抽取所述《中国食物成分表》文档中的食材名称,形成食材名称集合;并使用正则表达式抽取所述食材名称对应的一个或多个食材别称,形成食材别称集合;遍历所述食材名称集合和所述食材别称集合,使用字符串匹配法则去对齐所述知识库中食材名称和食材别称;当对齐成功时,记录所述知识库中的相应食材实体的身份标识ID与所述《中国食物成分表》中同一食材实体的食材名称以及食材别称的映射关系,形成所述同义词库。在本专利技术的示例性实施例中,当所述第二食材数据源为所述维基百科时,所述根据第二食材数据源中的食材数据建立食材实体的同义词库包括:遍历所述知识库中所有的食材名称,并利用爬虫技术在所述维基百科中对所述食材名称进行检索,将检索结果的网页数据进行保留;当所述检索结果的食材名称和被检索的知识库中食材名称相同时,抽取当前食材名称对应食材的别称;将抽取出的别称作为所述知识库中当前被检索食材的同义词;其中,维基百科词条的别称的位置包括:首段或第二段的一个或多个加粗字体中;当所述检索结果的食材名称和被检索的知识库中食材名称不相同时,抽取出检索结果中的一个或多个食材名称,一并作为所述知识库中当前被检索食材的同义词;将抽取出的同义词数据经过专家审核后组成所述同义词库或者合并到之前已经构建的同义词库中,并去掉重复数据。在本专利技术的示例性实施例中,所述将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接包括:对所述第一文本数据进行分词并去掉停用词后获取所述第一文本数据的第一上下文,并将所述候选食材实体集合中各个候选的食材实体的类标签、食材名称、食材别称和描述词语进行分词后作为该候选的食材实体的第二上下文;根据预设的相似度算法计算所述第一上下文和所述第二上下文的语义相似度;选出与所述第一上下文的相似度最大的所述第二上下文中的食材实体,并计算该最大的相似度的数值是否大于预设的相似度阈值;当所述最大的相似度的数值大于所述预设的相似度阈值时,将所述第一上下文中的第一食材实体连接到选出的与所述第一上下文的相似度最大的所述第二食材实体上。在本专利技术的示例性实施例中,所述预设的相似度算法包括:其中,x表示第一上下文中待实体链接的食材名称,e表示候选的食材实体,n表示第一上下文中词语的个数,k表示第二上下文种词语的个数,xci表示第一上下文中第i个词语,ecj表示第二上下文中第j个词语,v(x)表示x的词向量,v(xci)表示xci的词向量,v(ecj)表示ecj的词向量,词向量使用Skip-gram模型生成,sim(v(x),v(xci))表示通过计算x和xci的词向量的余弦相似度来计算x和xci的语义相似度,作为xci词语的权重,sim(v(xci),v(ecj))表示通过计算xci和ecj的词向量的余弦相似度,来计算xci和ecj的语义相似度。在本专利技术的示例性实施例中,所述方法还包括:在所述第一食材实体连接到所述第二食材实体上以后,输出所述第二食材实体在所述知识库中的相关实体信息;和/或,当所述候选食材实体集合中不存在第二食材实体与所述第一文本数据中的第一食材实体相匹配时,输出空置符NULL,并将所述第一文本数据中的第一食材实体补充到所述知识库中。本专利技术实施例还提供了一种多源食材数据之间的食材实体链接装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现上述任意一项所述的多源食本文档来自技高网...

【技术保护点】
1.一种多源食材数据之间的食材实体链接方法,其特征在于,所述方法包括:/n获取用于食材实体链接的候选食材实体集合;/n将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接。/n

【技术特征摘要】
1.一种多源食材数据之间的食材实体链接方法,其特征在于,所述方法包括:
获取用于食材实体链接的候选食材实体集合;
将从任意的食材数据源中获取的待实体链接的第一文本数据与所述候选食材实体集合进行匹配,并将所述第一文本数据中的第一食材实体与匹配成功的所述候选食材实体集合中的第二食材实体建立链接。


2.根据权利要求1所述的多源食材数据之间的食材实体链接方法,其特征在于,所述获取用于食材实体链接的候选食材实体集合包括:
根据第一食材数据源中的食材数据建立食材实体的知识库;
根据第二食材数据源中的食材数据建立食材实体的同义词库;
从任意的食材数据源中获取关于食材实体的文本数据,并通过所述文本数据组成食材实体文本数据集合;
根据所述食材实体文本数据集合、所述知识库和所述同义词库获取所述候选食材实体集合;
其中,所述第一食材数据源包括:美食杰食材百科;
所述第二食材数据源包括:《中国食物成分表》和/或维基百科。


3.根据权利要求2所述的多源食材数据之间的食材实体链接方法,其特征在于,所述根据所述食材实体文本数据集合、所述知识库和所述同义词库获取所述候选食材实体集合包括:
对所述食材实体文本数据集合中的每段文本数据进行分词;
分别计算分词结果中的字词在所述知识库中的第一词频-逆文本频率指数TF-IDF值和在所述同义词库中的第二TF-IDF值;
分别将第一TF-IDF值和所述第二TF-IDF值与预设的TF-IDF阈值相比较,并将满足所述第一TF-IDF值大于所述TF-IDF阈值和/或所述第二TF-IDF值大于所述TF-IDF阈值的字词对应的食材实体组成的集合作为所述候选食材实体集合。


4.根据权利要求2所述的多源食材数据之间的食材实体链接方法,其特征在于,所述根据第一食材数据源中的食材数据建立食材实体的知识库包括:
从所述第一食材数据源中抽取食材信息;所述食材信息包括:所有食材的类标以及每种类标中的每个食材实体对应页面的各类属性;
对所述食材信息进行清洗,以获取关于每个食材实体的符合预设要求的描述;
对清洗后的所述食材信息进行专家审核,以对关于食材实体的描述中的错误数据和不规范数据进行修改;
对经过专家审核的所述关于食材实体的描述保存到预设的食材知识图谱中,作为所述知识库。


5.根据权利要求2所述的多源食材数据之间的食材实体链接方法,其特征在于,当所述第二食材数据源为《中国食物成分表》时,所述根据第二食材数据源中的食材数据建立食材实体的同义词库包括:
使用文本读写工具,根据预设规则抽取所述《中国食物成分表》文档中的食材名称,形成食材名称集合;并使用正则表达式抽取所述食材名称对应的一个或多个食材别称,形成食材别称集合;
遍历所述食材名称集合和所述食材别称集合,使用字符串匹配法则去对齐所述知识库中食材名称和食材别称;
当对齐成功时,记录所述知识库中的相应食材实体的身份标识ID与所述《中国食物成分表》中同一食材实体的食材名称以及食材别称的映射关系,形成所述同义词库。


6.根据权利要求2或5所述的多源食材数据之间的食材实体链接方法,其特征在于,当所述第二食材数据源为所述维基百科时,所述根据第二食材数据源中的食...

【专利技术属性】
技术研发人员:朱泽春钟敬德
申请(专利权)人:九阳股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1