当前位置: 首页 > 专利查询>复旦大学专利>正文

中文通用概念图谱纠错装置制造方法及图纸

技术编号:30423247 阅读:20 留言:0更新日期:2021-10-24 16:51
本发明专利技术提供一种中文通用概念图谱纠错装置,用于对中文通用的概念图谱中实体与概念之间的isA关系进行纠错,其特征在于,包括:概念图谱获取模块,用于获取概念图谱中所有的isA关系以及对应的实体和概念;不兼容概念对构建模块,依次判断每两个概念是否兼容并基于所有不兼容的两个概念构建多组不兼容概念对,每一组不兼容概念对包含一个作为可疑实体的实体、作为待判定概念的两个概念以及作为待纠错isA关系的两个相应的isA关系;错误isA关系判定模块,依次基于每组不兼容概念对中的可疑实体以及待判定概念判定相应的两个待纠错isA关系中错误的一个;以及概念图谱纠错模块,用于在概念图谱中删除被判定错误的待纠错isA关系从而完成对概念图谱的纠错。完成对概念图谱的纠错。完成对概念图谱的纠错。

【技术实现步骤摘要】
中文通用概念图谱纠错装置


[0001]本专利技术属于知识图谱质量控制领域,具体涉及一种中文通用概念知识图谱的纠错装置。

技术介绍

[0002]概念图谱是一类专注于实体与概念之间isA关系的知识图谱。概念图谱包括3种元素:实体、概念和isA关系。其中isA关系又可以细分为实体与概念之间的instanceOf关系(例如,苹果是一种水果)以及概念与概念之间的subClass关系(例如,水果是一种食物)。概念图谱在文本分类、实体推荐和规则挖掘等任务中具有重要应用。但概念图谱的构建往往采用从互联网语料库中自动抽取isA关系的方法,难免被噪音干扰从而产生错误上下位关系,因此概念图谱纠错就是从千万级isA关系中移除错误的isA,提升概念图谱的准确率。
[0003]现有的技术中,概念图谱纠错方法可以分为两类:
[0004]1)基于Embedding的方法。该方法首先从互联网中爬取大规模语料库,并应用WebISA,PatternSim等词汇句法规则抽取isA关系,并对应现有概念图谱,通过Poincare Embedding的方式计算概念图谱中is本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种中文通用概念图谱纠错装置,用于对中文通用的概念图谱中实体与概念之间的isA关系进行纠错,其特征在于,包括:概念图谱获取模块,用于获取所述概念图谱中所有的所述isA关系以及每个isA关系唯一对应的所述实体和所述概念;不兼容概念对构建模块,依次判断每两个所述概念是否兼容并基于所有不兼容的两个所述概念所共有的所述实体以及相应的所述isA关系构建多组不兼容概念对,每一组所述不兼容概念对包含一个作为可疑实体的所述实体、作为待判定概念的两个所述概念以及作为待纠错isA关系的两个相应的所述isA关系;错误isA关系判定模块,依次基于每组所述不兼容概念对中的所述可疑实体以及所述待判定概念判定相应的两个所述待纠错isA关系中错误的一个;以及概念图谱纠错模块,用于在所述概念图谱中删除被判定错误的所述待纠错isA关系从而完成对所述概念图谱的纠错,其中,所述错误isA关系判定模块具有:百科词条判定部,获取所述可疑实体的百科词条的词条标签列表,并判定所述两个所述待判定概念是否同属于所述词条标签列表,若两个所述待判定概念中存在一个不属于所述词条标签列表,则进一步判定与不属于所述词条标签列表的所述待判定概念相对应的所述待纠错isA关系为错误的;以及半监督分类判定部,基于与所述待判定概念相对应的关键特征对所述可疑实体进行过滤,并基于预训练的BERT分类器对剩余的所述可疑实体进行过滤从而判定出所有所述不兼容概念对中错误的所述待判定概念,进一步判定与错误的所述待判定概念相对应的所述待纠错isA关系为错误的。2.根据权利要求1所述的中文通用概念图谱纠错装置,其特征在于:其中,所述半监督分类判定部具有:关键特征过滤单元,基于与所述待判定概念相对应的关键特征对所述可疑实体进行过滤,若所述可疑实体具有一个所述待判定概念的所述关键特征且不具有另一个所述待判定概念的所述关键特征,则判定所述可疑实体所不具有的所述关键特征所对应的所述待...

【专利技术属性】
技术研发人员:方世能刘井平肖仰华
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1