【技术实现步骤摘要】
一种基于跨度表示的端到端的菜谱信息抽取方法及系统
[0001]本专利技术涉及知识图谱领域,具体涉及一种基于跨度表示的端到端的菜谱信息抽取方法及系统。
技术介绍
[0002]食品安全风险防控一直是大型赛事保障工作的重点,加强食品安全风险识别与防控对维护重大赛事的顺利举行,具有极其重要的意义。安全风险相关数据存在分布散乱,关联性不强等问题,具有多源头,多渠道,多环节的特点。知识图谱提供了一种更好管理、组织和理解海量信息的方法,其以如(鱼香肉丝,原料,肉丝)这样的三元组的形式描述客观世界中的概念、实体及其关系,具有强大的语义关联能力。菜谱知识图谱的构建,将菜谱相关的知识进行整合,关联成一个“语义网络”,并以可视化的形式呈现,为食品风险按防控工作提供底层数据支撑。
[0003]信息抽取包括命名实体识别和关系抽取,即从原始文本中识别出实体以及实体所属的类型同时判断出命名实体识别所识别出的实体之间的关系。信息抽取是构建知识图谱的关键一步同时也对下游自然语言处理任务,比如,问答、语义检索等任务起到支持作用。抽取质量直接影响整个知识 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨度表示的端到端的菜谱信息抽取方法,其特征在于,包括:步骤S1:构建文本数据集;步骤S2:使用预训练语言模型获取所述文本数据集中每条文本语料向量;步骤S3:根据每条所述文本语料向量,获取每条所述文本语料向量中每个跨度向量;步骤S4:将所述每个跨度向量,输入神经网络,得到所述跨度向量的得分,并计算所述跨度向量的实体类型;步骤S5:取任一对所述跨度,将其对应的实体类型插入其所对应的所述文本,构建调整后的文本及其跨度向量,将所述调整后的跨度向量,输入神经网络,以判定二者对应关系。2.根据权利要求1所述的基于跨度表示的端到端的菜谱信息抽取方法,其特征在于,所述步骤S2:使用预训练语言模型获取所述文本数据集中每条文本语料向量,具体包括:使用所述预训练语言模型对所述文本数据集中每条文本进行处理,得到所述每条文本语料向量;其中,所述文本表示为X={x1,...,x
n
},所述文本语料向量表示为X={x1,...,x
n
};其中,xi是该条文本数据中第i个汉字的向量。3.根据权利要求1所述的基于跨度表示的端到端的菜谱信息抽取方法,其特征在于,所述步骤S3:根据每条所述文本语料向量,获取每条所述文本语料向量中每个跨度向量,具体包括:步骤S31:获得所述文本语料向量中所有跨度;其中,所述跨度为所述文本语料向量X={x1,...,x
n
}中,所有可能的汉字组合;所述跨度表示为S={s1,...,s
m
},其中,s
i
为该文本语料向量的第i个跨度,步骤S32:构建所述跨度s
i
的向量其中,x
START(i)
表示s
i
的起始位置向量,x
END(i)
示跨度s
i
的结束位置向量,表示s
i
中所有向量的加权和,φ(i)是表示s
i
大小的向量。4.根据权利要求1所述的基于跨度表示的端到端的菜谱信息抽取方法,其特征在于,所述步骤S4:将所述每个跨度向量,输入神经网络,得到所述跨度向量的得分,并计算得到所述跨度向量的实体类型,具体包括:步骤S41:将每个所述跨度向量g
i
,构建输入G={g1,...,g
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。