基于规则和远程监督的百度百科关系三元组抽取方法技术

技术编号：19342145 阅读：46 留言：0更新日期：2018-11-07 13:53

本发明专利技术提供一种基于规则和远程监督的百度百科关系三元组抽取方法，该方法对信息框这种信息集中的结构化文本，本发明专利技术主要采用基于规则、正则表达式的方法抽取关系三元组，这些三元组后续又可以作为远程监督算法的输入。对正文这种信息零散的非结构化文本，本发明专利技术一方面通过撰写简单的、准确的、显而易见的规则，抽取小部分关系三元组，另一方面，将前面所有基于规则得到的三元组作为远程监督算法的输入，将所有正文文本中包含头实体和尾实体的句子标记出来，按关系分类，训练分类器，再将分类器应用到正文文本的其他句子上，藉此发现更多的三元组。

Three tuple extraction method for Baidu encyclopedia relations based on rules and remote monitoring

The present invention provides a rule-based and remote monitoring-based method for extracting Baidu encyclopedia relational triples. This method is used to extract structured text in information box, which is a kind of information-centralized text. The present invention mainly adopts rule-based and regular expression-based method to extract relational triples, which can be subsequently transmitted as remote monitoring algorithm. Enter. For unstructured text with scattered information such as text, on the one hand, the present invention extracts a small part of relational triples by writing simple, accurate and obvious rules, on the other hand, it takes all the preceding rule-based triples as input of remote monitoring algorithm, and includes header entities in all text. The sentences of Hewei entity are marked, classified according to the relationship, trained the classifier, and then applied to other sentences of the text to find more triples.

全部详细技术资料下载

【技术实现步骤摘要】
基于规则和远程监督的百度百科关系三元组抽取方法
本专利技术涉及知识图谱领域，更具体地，涉及一种基于规则和远程监督的百度百科关系三元组抽取方法。
技术介绍
知识图谱，从本质上讲，是一种揭示实体之间关系的语义网络，它可以对现实世界的事物及其相互关系进行形式化的描述，在命名实体识别、词义消歧、信息抽取、智能搜索、智能问答、对话机器人等越来越多的自然语言处理领域得到了广泛应用。在知识库中，结构化的知识通常使用三元组的方式表达，即(h,r,t)，h、r、t分别代表头实体、关系、尾实体。因此，关系三元组抽取是构建知识库最基础的工作，只有保证获取一定数量和质量的三元组，知识图谱的后续应用才有坚实的根基。关系三元组抽取最原始的方法，是人工抽取并将其录入知识库。这种方法需要耗费大量的人力资源，效率低，只适用于专业知识库，且要求知识库复杂度较低。对于开放域知识库，则需要利用计算机计算能力强且不知疲倦的特性，应用一定的算法，进行三元组抽取。传统的方法通常基于正则表达式，或者基于语法规则。例如Culotta等人(CulottaA,SorensenJ.DependencyTreeKernelsforRelationExtraction[C].42ndAnnualMeetingonAssociationforComputationalLinguistics,2004,423-429)以语义依存树为基础构造支持向量机的核函数，并以此从新闻文章中检测和分类关系三元组。Banko等人(BankoM,CafarellaMJ,SoderlandS,etal.OpenInformationExt...

【技术保护点】
1.一种基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，包括以下步骤：S1：从信息框中抽取关系三元组：将HTML源码中属于信息框的部分取出；信息框的每一行，第一个属性作为关系，第二个属性作为尾实体，词条名则是头实体；将出现次数累计不少于阈值N的关系，作为有意义的关系继续考察，并以此为基础，筛选出连接的头尾实体主要是名词、命名实体的关系；随后，将尾实体完全被书名号括起来的三元组全数保留；将带有并列关系的尾实体拆开，简化为多个具有相同头实体和关系的三元组；凡是材料、配料、用料相关的关系三元组，只要实体，不要数字；尾实体不是都由名词或者命名实体组成的，也不予保留；S2：应用简单的规则从正文中抽取关系三元组：使用正则表达式，将语法简单且蕴含关系三元组的句子标记出来，直接抽取关系；S3：以S1、S2两步得到的关系三元组为基础，运用远程监督算法，训练关系分类器，学习不同关系在开放域文本表达的不同特征，随后将该分类器运用到百度百科正文的所有句子上，抽取所要的关系。

【技术特征摘要】
1.一种基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，包括以下步骤：S1：从信息框中抽取关系三元组：将HTML源码中属于信息框的部分取出；信息框的每一行，第一个属性作为关系，第二个属性作为尾实体，词条名则是头实体；将出现次数累计不少于阈值N的关系，作为有意义的关系继续考察，并以此为基础，筛选出连接的头尾实体主要是名词、命名实体的关系；随后，将尾实体完全被书名号括起来的三元组全数保留；将带有并列关系的尾实体拆开，简化为多个具有相同头实体和关系的三元组；凡是材料、配料、用料相关的关系三元组，只要实体，不要数字；尾实体不是都由名词或者命名实体组成的，也不予保留；S2：应用简单的规则从正文中抽取关系三元组：使用正则表达式，将语法简单且蕴含关系三元组的句子标记出来，直接抽取关系；S3：以S1、S2两步得到的关系三元组为基础，运用远程监督算法，训练关系分类器，学习不同关系在开放域文本表达的不同特征，随后将该分类器运用到百度百科正文的所有句子上，抽取所要的关系。2.根据权利要求1所述的基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，所述步骤S1的具体过程是：S11：将HTML源码中class为basicInfo-item的标签抽取出来，其中带有dt子标签的是关系，带有dd子标签的是尾实体，词条名则为头实体，整理出信息框中所有显式的关系三元组；S12：统计各个关系的出现次数，筛选出次数不少于某个阈值N的关系作进一步考察，因为信息框中出现的许多低频关系，要么是网友编辑的笔误，要么是网友将本该出现在正文的内容强行关系化，要么远离生活，脱离实际；将低频关系筛选掉有助于提升知识库中三元组的质量，也有助于后续远程监督算法的抽取质量，N由知识库规模决定，在百度百科中通常取5000；S13：进一步筛选有考察意义的关系，具体地，“中文名”“名字”关系不要，分类关系不要，形容词不要，数字属性不要；S14：凡是尾实体完全由书名号括起来的，均认为是命名实体，对应关系均予以保留，不再做后续处理；S15：对未在S14中涉及到的关系继续处理，尾实体中包含并列关系的，按上文提到的分隔符拆开，但如果出现括号，括号中的内容则全数保留；S16：对于材料、配料、用料相关的关系，尾实体只保留前面的实体，后面的数字去除；S17：尾实体不完全由命名实体或名词组成的，则对应三元组予以剔除；具体步骤是，先对尾实体分词，然后做词性分析和命名实体分析，如果所有词是命名实体或者名词，则可以保留。3.根据权利要求2所述的基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，所述步骤S2中应用简单的规则从正文中抽取关系三元组，具体包括：撰写正则表达式，匹配简单句子，抽取三元组：“t是h的r”，“h的r是t”，均可抽取出三元组(h,r,t)。4.根据权利要求3所述的基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，所述在步骤S3中，运用远程监督算法从正文中抽取关系，具体包括：S31...

【专利技术属性】
技术研发人员：王珩，毛明志，潘嵘，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人