当前位置: 首页 > 专利查询>中山大学专利>正文

基于规则和远程监督的百度百科关系三元组抽取方法技术

技术编号:19342145 阅读:46 留言:0更新日期:2018-11-07 13:53
本发明专利技术提供一种基于规则和远程监督的百度百科关系三元组抽取方法,该方法对信息框这种信息集中的结构化文本,本发明专利技术主要采用基于规则、正则表达式的方法抽取关系三元组,这些三元组后续又可以作为远程监督算法的输入。对正文这种信息零散的非结构化文本,本发明专利技术一方面通过撰写简单的、准确的、显而易见的规则,抽取小部分关系三元组,另一方面,将前面所有基于规则得到的三元组作为远程监督算法的输入,将所有正文文本中包含头实体和尾实体的句子标记出来,按关系分类,训练分类器,再将分类器应用到正文文本的其他句子上,藉此发现更多的三元组。

Three tuple extraction method for Baidu encyclopedia relations based on rules and remote monitoring

The present invention provides a rule-based and remote monitoring-based method for extracting Baidu encyclopedia relational triples. This method is used to extract structured text in information box, which is a kind of information-centralized text. The present invention mainly adopts rule-based and regular expression-based method to extract relational triples, which can be subsequently transmitted as remote monitoring algorithm. Enter. For unstructured text with scattered information such as text, on the one hand, the present invention extracts a small part of relational triples by writing simple, accurate and obvious rules, on the other hand, it takes all the preceding rule-based triples as input of remote monitoring algorithm, and includes header entities in all text. The sentences of Hewei entity are marked, classified according to the relationship, trained the classifier, and then applied to other sentences of the text to find more triples.

【技术实现步骤摘要】
基于规则和远程监督的百度百科关系三元组抽取方法
本专利技术涉及知识图谱领域,更具体地,涉及一种基于规则和远程监督的百度百科关系三元组抽取方法。
技术介绍
知识图谱,从本质上讲,是一种揭示实体之间关系的语义网络,它可以对现实世界的事物及其相互关系进行形式化的描述,在命名实体识别、词义消歧、信息抽取、智能搜索、智能问答、对话机器人等越来越多的自然语言处理领域得到了广泛应用。在知识库中,结构化的知识通常使用三元组的方式表达,即(h,r,t),h、r、t分别代表头实体、关系、尾实体。因此,关系三元组抽取是构建知识库最基础的工作,只有保证获取一定数量和质量的三元组,知识图谱的后续应用才有坚实的根基。关系三元组抽取最原始的方法,是人工抽取并将其录入知识库。这种方法需要耗费大量的人力资源,效率低,只适用于专业知识库,且要求知识库复杂度较低。对于开放域知识库,则需要利用计算机计算能力强且不知疲倦的特性,应用一定的算法,进行三元组抽取。传统的方法通常基于正则表达式,或者基于语法规则。例如Culotta等人(CulottaA,SorensenJ.DependencyTreeKernelsforRelationExtraction[C].42ndAnnualMeetingonAssociationforComputationalLinguistics,2004,423-429)以语义依存树为基础构造支持向量机的核函数,并以此从新闻文章中检测和分类关系三元组。Banko等人(BankoM,CafarellaMJ,SoderlandS,etal.OpenInformationExtractionfromtheWeb[C].IJCAI,2007,2670-2676)则通过制定语法规则和字段匹配规则,从网络文本中抽取三元组。由于人类能枚举的规则是有限的,因此总会存在很多三元组,它们不能被我们列出的规则抽取到,造成知识库的遗漏。因此,Mintz等人(MintzM,BillsS,SnowR,etal.DistantSupervisionforRelationExtractionwithoutLabeledData[C].JointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP,2009,1003-1011)基于相同关系有相似表达的假设,提出了远程监督的方法,首先通过人工输入、简单句子规则匹配,抽取高质量的三元组,然后在开放域文本中,将同时包含一对头实体和尾实体的句子标记出来,训练logistic分类器,使之学到相同关系对应句子的相似性和不同关系对应句子的区别,随后将该分类器运用到开放域文本,抽取更多三元组,如滚雪球一般。这种基于半监督的方法,避免了人工书写复杂规则,充分利用了算法的学习能力,受到业界的青睐,后续又有学者以远程监督为基础,提出了改进算法,如Min等人(MinB,GrishmanR,WanL,etal.DistantSupervisionforRelationExtractionwithanIncompleteKnowledgeBase[C].ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,2013,777-782)只在正样本和未标注标签上学习关系的语言特征,减轻了假负例的影响;Bing等人(BingL,ChaudhariS,WangR,etal.ImprovingDistantSupervisionforInformationExtractionUsingLabelPropagationthroughLists[C].ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2015,524-529)则利用文档中的标签信息辅助训练分类器。以上研究的源语言都是英文,要将这些方法运用到中文上,需要解决更多的问题,如分词、断句、消歧等。百度百科是由众多网友自发编写的大型中文知识库,具有内容丰富、格式规范、时效性强等特点。百度百科的词条大体可分为两部分,上半部分是信息框(infobox),展示的是某个词条重要特征的摘要信息,下半部分是正文,对该词条作进一步具体的阐述。信息框高度结构化,内容零碎化,更适合使用规则抽取,而正文是无结构化文本,使用规则效果将会很差。
技术实现思路
本专利技术提供一种基于规则和远程监督的百度百科关系三元组抽取方法,该方法通过撰写简单的、准确的、显而易见的规则,抽取小部分关系三元组,另一方面,将前面所有基于规则得到的三元组作为远程监督算法的输入,将所有正文文本中包含头实体和尾实体的句子标记出来,按关系分类,训练分类器,再将分类器应用到正文文本的其他句子上,藉此发现更多的三元组。为了达到上述技术效果,本专利技术的技术方案如下:一种基于规则和远程监督的百度百科关系三元组抽取方法,包括以下步骤:S1:从信息框中抽取关系三元组:将HTML源码中属于信息框的部分取出;信息框的每一行,第一个属性作为关系,第二个属性作为尾实体,词条名则是头实体;将出现次数累计不少于阈值N的关系,作为有意义的关系继续考察,并以此为基础,筛选出连接的头尾实体主要是名词、命名实体的关系;随后,将尾实体完全被书名号括起来的三元组全数保留;将带有并列关系的尾实体拆开,简化为多个具有相同头实体和关系的三元组;凡是材料、配料、用料相关的关系三元组,只要实体,不要数字;尾实体不是都由名词或者命名实体组成的,也不予保留;S2:应用简单的规则从正文中抽取关系三元组:使用正则表达式,将语法简单且蕴含关系三元组的句子标记出来,直接抽取关系;S3:以S1、S2两步得到的关系三元组为基础,运用远程监督算法,训练关系分类器,学习不同关系在开放域文本表达的不同特征,随后将该分类器运用到百度百科正文的所有句子上,抽取所要的关系。进一步地,所述步骤S1的具体过程是:S11:将HTML源码中class为basicInfo-item的标签抽取出来,其中带有dt子标签的是关系,带有dd子标签的是尾实体,词条名则为头实体,整理出信息框中所有显式的关系三元组;S12:统计各个关系的出现次数,筛选出次数不少于某个阈值N的关系作进一步考察,因为信息框中出现的许多低频关系,要么是网友编辑的笔误,要么是网友将本该出现在正文的内容强行关系化,要么远离生活,脱离实际;将低频关系筛选掉有助于提升知识库中三元组的质量,也有助于后续远程监督算法的抽取质量,N由知识库规模决定,在百度百科中通常取5000;S13:进一步筛选有考察意义的关系,具体地,“中文名”“名字”关系不要,分类关系不要,形容词不要,数字属性不要;S14:凡是尾实体完全由书名号括起来的,均认为是命名实体,对应关系均予以保留,不再做后续处理;S15:对未在S14中涉及到的关系继续处理,尾实体中包含并列关系的,按上文提到的分隔符拆开,但如果出现括号本文档来自技高网
...

【技术保护点】
1.一种基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,包括以下步骤:S1:从信息框中抽取关系三元组:将HTML源码中属于信息框的部分取出;信息框的每一行,第一个属性作为关系,第二个属性作为尾实体,词条名则是头实体;将出现次数累计不少于阈值N的关系,作为有意义的关系继续考察,并以此为基础,筛选出连接的头尾实体主要是名词、命名实体的关系;随后,将尾实体完全被书名号括起来的三元组全数保留;将带有并列关系的尾实体拆开,简化为多个具有相同头实体和关系的三元组;凡是材料、配料、用料相关的关系三元组,只要实体,不要数字;尾实体不是都由名词或者命名实体组成的,也不予保留;S2:应用简单的规则从正文中抽取关系三元组:使用正则表达式,将语法简单且蕴含关系三元组的句子标记出来,直接抽取关系;S3:以S1、S2两步得到的关系三元组为基础,运用远程监督算法,训练关系分类器,学习不同关系在开放域文本表达的不同特征,随后将该分类器运用到百度百科正文的所有句子上,抽取所要的关系。

【技术特征摘要】
1.一种基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,包括以下步骤:S1:从信息框中抽取关系三元组:将HTML源码中属于信息框的部分取出;信息框的每一行,第一个属性作为关系,第二个属性作为尾实体,词条名则是头实体;将出现次数累计不少于阈值N的关系,作为有意义的关系继续考察,并以此为基础,筛选出连接的头尾实体主要是名词、命名实体的关系;随后,将尾实体完全被书名号括起来的三元组全数保留;将带有并列关系的尾实体拆开,简化为多个具有相同头实体和关系的三元组;凡是材料、配料、用料相关的关系三元组,只要实体,不要数字;尾实体不是都由名词或者命名实体组成的,也不予保留;S2:应用简单的规则从正文中抽取关系三元组:使用正则表达式,将语法简单且蕴含关系三元组的句子标记出来,直接抽取关系;S3:以S1、S2两步得到的关系三元组为基础,运用远程监督算法,训练关系分类器,学习不同关系在开放域文本表达的不同特征,随后将该分类器运用到百度百科正文的所有句子上,抽取所要的关系。2.根据权利要求1所述的基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,所述步骤S1的具体过程是:S11:将HTML源码中class为basicInfo-item的标签抽取出来,其中带有dt子标签的是关系,带有dd子标签的是尾实体,词条名则为头实体,整理出信息框中所有显式的关系三元组;S12:统计各个关系的出现次数,筛选出次数不少于某个阈值N的关系作进一步考察,因为信息框中出现的许多低频关系,要么是网友编辑的笔误,要么是网友将本该出现在正文的内容强行关系化,要么远离生活,脱离实际;将低频关系筛选掉有助于提升知识库中三元组的质量,也有助于后续远程监督算法的抽取质量,N由知识库规模决定,在百度百科中通常取5000;S13:进一步筛选有考察意义的关系,具体地,“中文名”“名字”关系不要,分类关系不要,形容词不要,数字属性不要;S14:凡是尾实体完全由书名号括起来的,均认为是命名实体,对应关系均予以保留,不再做后续处理;S15:对未在S14中涉及到的关系继续处理,尾实体中包含并列关系的,按上文提到的分隔符拆开,但如果出现括号,括号中的内容则全数保留;S16:对于材料、配料、用料相关的关系,尾实体只保留前面的实体,后面的数字去除;S17:尾实体不完全由命名实体或名词组成的,则对应三元组予以剔除;具体步骤是,先对尾实体分词,然后做词性分析和命名实体分析,如果所有词是命名实体或者名词,则可以保留。3.根据权利要求2所述的基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,所述步骤S2中应用简单的规则从正文中抽取关系三元组,具体包括:撰写正则表达式,匹配简单句子,抽取三元组:“t是h的r”,“h的r是t”,均可抽取出三元组(h,r,t)。4.根据权利要求3所述的基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,所述在步骤S3中,运用远程监督算法从正文中抽取关系,具体包括:S31...

【专利技术属性】
技术研发人员:王珩毛明志潘嵘
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1