当前位置: 首页 > 专利查询>苏州大学专利>正文

融合先验知识和上下文相关度的知识库抽取方法技术

技术编号:21913969 阅读:20 留言:0更新日期:2019-08-21 12:25
本发明专利技术公开了一种融合先验知识和上下文相关度的知识库抽取方法。本发明专利技术提出了一种融合先验知识和上下文相关度的知识库抽取方法,包括:多知识库生成候选集:为了获取适用于实体链接任务的知识库(即:抽取与语料相关领域的维基页面),通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中

A Knowledge Base Extraction Method Integrating Priori Knowledge and Context Relevance

【技术实现步骤摘要】
融合先验知识和上下文相关度的知识库抽取方法
本专利技术涉及知识库抽取方法领域,具体涉及一种融合先验知识和上下文相关度的知识库抽取方法。
技术介绍
知识库是基于知识的系统,知识库中知识根据它们的应用领域特征、背景特征、使用特征等而被组织成便于使用的、有结构的组织形式。知识库可用于自然语言处理的诸多任务中(例如关系抽取、事件抽取、阅读理解、问答等),同时也是实体链接不可或缺的核心部件。常见的知识库包括Wikipedia、DBpedia、YAGO、Freebase等,本专利技术是对Wikipedia知识库进行抽取从而服务于实体链接任务。知识库抽取的研究历史悠久。AlaniH等人[1]于2003年首先将知识抽取工具与本体相结合,实现持续的知识支持和指导信息抽取,并直接从Web上的非结构化文本中构建所需的知识库。WangJH等人[2]于2008年为每个条目设计多个模板和与每个模板相关的多个属性的知识库结构,最后根据设计的结构自动构建维基百科问答系统知识库。ShinJ等人[3]于2015年提出DeepDive系统构建知识库,同时采用抽样和变分技术动态的扩充知识库。LehmannJ等人[4]于2015年从维基百科中提取结构化、多语言的知识,并使用语义网和链接数据技术构建出DBpedia知识库。RebeleT等人[5]于2016年将来自维基百科的10种不同语言的信息整合成一个连贯的整体,再将空间和时间的信息附加到各自的实例上,最后构建出允许用户在空间和时间上查询数据的YAGO知识库。目前,实体链接任务所使用的知识库几乎都是Wikipedia_2014,服务于实体链接的知识库抽取的研究甚少,考虑到Wikipedia_2014知识库繁冗的信息会造成高价运行成本和负面噪音,所以本专利技术针对于实体链接任务进行知识库抽取具有很重要的研究价值。传统技术存在以下技术问题:知识库作为实体链接任务不可或缺的核心部件,知识库的质量直接决定了实体链接的性能。近年来,国内外的实体链接任务几乎都是使用Wikipedia_2014知识库,还未有人针对于实体链接任务进行知识库的抽取,从而进一步服务于实体链接任务。由于Wikipedia_2014知识库结构工整、完备性较高,所以成为实体链接任务的首选知识库。但是完整的Wikipedia_2014知识库存在数据繁冗、多领域信息混杂等问题,导致知识库中掺杂了大量的噪声,影响实体链接任务的性能,同时极大地增加了系统不必要的资源消耗与训练时间。相关文献:[1]AlaniH,KimS,MillardDE,etal.Automaticontology-basedknowledgeextractionfromwebdocuments[J].IEEEIntelligentSystems,2003,18(1):14-21.[2]WangJH,ChungES,JangMG.Semi-automaticconstructionmethodforknowledgebaseofencyclopediaquestionansweringsystem:U.S.Patent7,428,487[P].2008-9-23.[3]ShinJ,WuS,WangF,etal.IncrementalknowledgebaseconstructionusingDeepDive[J].ProceedingsoftheVLDBEndowment,2015,8(11):1310-1321.[4]LehmannJ,IseleR,JakobM,etal.DBpedia–alarge-scale,multilingualknowledgebaseextractedfromWikipedia[J].SemanticWeb,2015,6(2):167-195.[5]RebeleT,SuchanekF,HoffartJ,etal.YAGO:Amultilingualknowledgebasefromwikipedia,wordnet,andgeonames[C]//InternationalSemanticWebConference.Springer,Cham,2016:177-185.[6]Le,Phong,andIvanTitov."Improvingentitylinkingbymodelinglatentrelationsbetweenmentions."arXivpreprintarXiv:1804.10637(2018).
技术实现思路
本专利技术要解决的技术问题是提供一种融合先验知识和上下文相关度的知识库抽取方法,先利用候选实体的先验知识抽取知识库,再利用候选实体的锚文本所对应的维基页面的上下文相关度来进一步抽取知识库,最终得到与实验语料领域相关的知识库,最大限度的减少知识库带来的噪声干扰与资源消耗。为了解决上述技术问题,本专利技术提供了一种融合先验知识和上下文相关度的知识库抽取方法,包括:多知识库生成候选集:为了获取适用于实体链接任务的知识库(即:抽取与语料相关领域的维基页面),通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(SpitkovskyandChang)和Yago知识库(Hoffartetal.)中<mention-entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率若在上述3种不同的资源中得到了相同<mention-entity>的不同共现次数,则取共现次数最大的值;先验概率的计算公式为:其中,m表示mention,m表示mention,ei表示mention的第i个候选实体;按先验知识比例抽取:候选集中候选实体会按照先验概率进行排序,候选实体集中的候选实体以三元组的形式存储:<Wiki_id,Priorprobability,Wiki_name>;抽取出由第一步骤生成的mention候选集中的候选实体,同时将选出的候选实体所对应的维基百科页面放入抽取的知识库中;按抽取实体的锚文本扩充:在按比例抽取出候选实体以及将候选实体所对应的维基页面存入知识库的基础上,将利用知识库结构中“Other”部分的锚文本对抽取的知识库进行扩充;每个维基页面的“Other”部分的锚文本都可以发散性的指向相关的页面,而被指向的页面同理也能指向更深一层的文章,使用了锚文本指向的第一层页面信息;按上下文相关度比例抽取:在以上步骤得到按先验知识比例抽取的知识库的基础上,使用实体链接模型进行性能评测,分别得到Wikipedia_2014和Wikipedia_2018性能最好的抽取比例;每个维基百科页面中的“Description”部分都是对“title”(知识库中的entity)进行下定义式的详细描述,将使用mention所在的上下文分别与由第二步骤抽取出的候选实体的“Description”部分进行相似度计算,从而进一步筛选候选实体;为了能更好的评测出mention所在的上下文和候选实体的“Description”部分的相似度,从语义的角度出发,使用以下无监督策略来计算相关度:ELMo+Euclideandistance;ELMo(Embeddings本文档来自技高网
...

【技术保护点】
1.一种融合先验知识和上下文相关度的知识库抽取方法,其特征在于,包括:多知识库生成候选集:为了获取适用于实体链接任务的知识库(即:抽取与语料相关领域的维基页面),通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中<mention‑entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率

【技术特征摘要】
1.一种融合先验知识和上下文相关度的知识库抽取方法,其特征在于,包括:多知识库生成候选集:为了获取适用于实体链接任务的知识库(即:抽取与语料相关领域的维基页面),通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(SpitkovskyandChang)和Yago知识库(Hoffartetal.)中<mention-entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率若在上述3种不同的资源中得到了相同<mention-entity>的不同共现次数,则取共现次数最大的值;先验概率的计算公式为:其中,m表示mention,m表示mention,ei表示mention的第i个候选实体;按先验知识比例抽取:候选集中候选实体会按照先验概率进行排序,候选实体集中的候选实体以三元组的形式存储:<Wiki_id,Priorprobability,Wiki_name>;抽取出由第一步骤生成的mention候选集中的候选实体,同时将选出的候选实体所对应的维基百科页面放入抽取的知识库中;按抽取实体的锚文本扩充:在按比例抽取出候选实体以及将候选实体所对应的维基页面存入知识库的基础上,将利用知识库结构中“Other”部分的锚文本对抽取的知识库进行扩充;每个维基页面的“Other”部分的锚文本都可以发散性的指向相关的页面,而被指向的页面同理也能指向更深一层的文章,使用了锚文本指向的第一层页面信息;按上下文相关度比例抽取:在以上步骤得到按先验知识比例抽取的知识库的基础上,使用实体链接模型进行性能评测,分别得到Wikipedia_2014和Wikipedia_2018性能最好的抽取比例;每个维基百科页面中的“Description”部分都是对“title”(知识库中的entity)进行下定义式的详细描述,将使用mention所在的上下文分别与由第二步骤抽取出的候选实体的“Description”部分进行相似度计算,从而进一步筛选候选实体;为了能更好的评测出mention所在的上下文和候选实体的“Description”部分的相似度,从语义的角度出发,使用以下无监督策略来计算相关度:ELMo+Euclideandistance;ELMo(EmbeddingsfromLanguageModels)是深层的双向语言模型(DeepBidirectionalLanguageModel)的多层内部状态(internalstate)表示的组合,是基于大量无标签文本训练完成...

【专利技术属性】
技术研发人员:孔芳李明扬周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1