当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于多种语言的实体关系抽取方法及服务器技术

技术编号:16427791 阅读:52 留言:0更新日期:2017-10-21 22:30
本发明专利技术公开一种基于多种语言的实体关系抽取方法及服务器。其中,所述方法包括:在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与两个实体相关的句子的向量表示;根据某一种语言中每个与两个实体相关的句子的向量表示以及预设的两个实体间的关系的向量表示,获得所述某一种语言中与两个实体相关的句子相对于多种语言中任意一种语言的综合向量表示;根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的两个实体间的关系中抽取两个实体间的关系。所述服务器用于执行上述方法。本发明专利技术提供的基于多种语言的实体关系抽取方法及服务器,提高了两个实体间关系抽取的准确性。

An entity relation extraction method and server based on multi language

The invention discloses a method for extracting entity relations based on multi languages and a server. Among them, the method comprises: acquiring two entities to be extracted relations in many languages and sentences in each language in the first preset number and the two related entities, each associated with vector and construct two entity representation of a sentence; according to each vector in a certain language related the two entity sentence representation and vector relation between two entities of presupposition, the one language associated with two sentences with respect to any entity integrated vector in many languages of a language; according to each of the integrated vector and relation extraction model established, the relationship between the two entity extraction between two entities in the default between the. The server is used for executing the above method. The method and the server based on the multi language entity relation provided by the invention improve the accuracy of the relation extraction between the two entities.

【技术实现步骤摘要】
一种基于多种语言的实体关系抽取方法及服务器
本专利技术涉及信息处理
,具体涉及一种基于多种语言的实体关系抽取方法及服务器。
技术介绍
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题。为了结构化地对现实世界的知识进行存储和处理,人们建立了很多大规模的知识图谱,例如Wikidata和Dbpedia等。知识图标将世界上所有人物、地名、机构名等专有名词与事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间的利用关系,例如,“纽约是美国的一座城市”这一知识,在知识图谱中则利用三元组关系(纽约,是……的一座城市,美国)进行表示,“纽约”和“美国”为实体,“是……的一座城市”为关系。目前,关系抽取作为一种从自然文本中抽取有结构数据的方法,得到了广泛应用。现有关系抽取都需要大量的人工标注数据,非常的耗时耗力。针对这个问题,基于远程监督的关系抽取方法提出可以通过对纯文本和知识库之间进行对其来自动产生训练数据。但是,这种远程监督产生的训练数据存在一个严重的问题,就是产生的训练数据噪音非常严重,因为并不是所有的包含两个实体的句子都会反映他们两者之间的关系。为了降低噪声,传统非神经网络的方法通常通过概率图模型的方法优化句子与两个实体关系之间关系。而上述关系抽取的方法,专注于在单语言数据上进行关系抽取,并没有涉及到对多语言数据进行关系提取。因此,如何提出一种方法,能够基于多种语言资源,提高两个实体间关系抽取的准确性成为业界亟待解决的重要课题。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种基于多种语言的实体关系抽取方法及服务器。一方面,本专利技术提出一种基于多种语言的实体关系抽取方法,包括:在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。另一方面,本专利技术提供一种服务器,包括:第一构建单元,用于在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;第一获得单元,用于根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;抽取单元,用于根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。本专利技术提供的基于多种语言的实体关系抽取方法及服务器,由于能够在多种语言中获取待抽取关系的两个实体以及与两个实体相关的句子,并构建与两个实体相关的句子的向量表示,再结合预设的两个实体间的关系的向量表示,获得在一种语言中与两个实体相关的句子相对于任意一种语言的综合向量表示,再根据综合向量表示以及预先建立的关系抽取模型,在预设的两个实体间的关系中获取到两个实体间的关系,提高了两个实体间关系抽取的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例基于多种语言的实体关系抽取方法的流程示意图;图2为本专利技术另一实施例基于多种语言的实体关系抽取方法的流程示意图;图3为本专利技术又一实施例基于多种语言的实体关系抽取方法的流程示意图;图4为本专利技术再一实施例基于多种语言的实体关系抽取方法的流程示意图;图5为本专利技术一实施例服务器的结构示意图;图6为本专利技术另一实施例服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。基于以下两点原因,不同语言的资源可以提高两个实体间关系的抽取效果。第一、不同语言的资源拥有相互补充性。例如,包括两个实体的句子在一种语言中比在另一种语言中拥有更多的实例,对所述两个实体进行关系抽取时,拥有实例较多的语言可以对拥有实例较少的语言进行补充。第二、不同语言的资源拥有一致性。世界上不同语言地区的人们用不同的语言描述知识,由于拥有相似的经历和认知系统,使用不同语言的人们对世界上的知识拥有相似的认知。例如,对于中文中的“美国”、“纽约”和英文中的“UnitedStates”,“NewYork”,无论美国人还是中国人都认为“纽约是美国的一座城市”。图1为本专利技术一实施例基于多种语言的实体关系抽取方法的流程示意图,如图1所示,本专利技术提供的基于多种语言的实体关系抽取方法,包括:S101、在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;具体地,服务器在对给定的两个实体进行关系抽取时,在多种语言中获取在每种语言中第一预设数量的与所述两个实体相关的句子,所述给定的两个实体即待抽取关系的两个实体,如果句子中包括所述两个实体,那么所述句子与所述两个实体相关。所述服务器在获取到所述两个实体以及与所述两个实体相关的句子之后,构建每个与所述两个实体相关的句子的向量表示。其中,所述第一预设数量根据实际情况进行设定,本专利技术实施例不做限定。可理解是是,所述两个实体在所述多种语言中有不同的表示,例如“美国”在中文可以表示为“美国”,在英语中可以表示为“America”。S102、根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;具体地,所述服务器在构建所述多种语言中的每个与所述两个实体相关的句子的向量表示之后,可以从中获得所述多种语言中的某一种语言中每个与所述两个实体相关的句子的向量表示。所述服务器获得预设的两个实体间的关系,例如可以从知识图谱Wikidata和Dbpedia中获得所述两个实体间的关系,再将所述两个实体间的关系转化为向量表示,即获得了预设的所述两个实体间的关系的向量表示。所述服务器根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示。其中,所述两个实体间的关系在所有语言中本文档来自技高网
...
一种基于多种语言的实体关系抽取方法及服务器

【技术保护点】
一种基于多种语言的实体关系抽取方法,其特征在于,包括:在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。

【技术特征摘要】
1.一种基于多种语言的实体关系抽取方法,其特征在于,包括:在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与所述两个实体相关的句子的向量表示;根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示;根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。2.根据权利要求1所述的方法,其特征在于,所述构建每个与所述两个实体相关的句子的向量表示包括:分别构建所述句子中每个词的词向量,所述词向量为所述词的内容向量和位置向量的拼接;根据所述句子对应的所有词向量,获得所述句子的向量表示。3.根据权利要求1所述的方法,其特征在于,所述根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示,获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示包括:采用语言选择注意力机制获得所述综合向量表示,其中:根据公式计算获得语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk,其中,所述语言j与所述语言k是所述多种语言中的任意一种语言,表示所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重,i为正整数,n等于所述第一预设数量;根据公式计算获得所述语言选择注意力权重其中,表示所述语言j中第i个与所述两个实体相关的句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度;根据公式计算获得所述关联程度其中,r为所述预设的所述两个实体间的关系的向量表示。4.根据权利要求1所述的方法,其特征在于,所述根据各个所述综合向量表示以及预设的关系抽取模型,在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系包括:根据各个所述综合向量表示以及所述关系抽取模型,计算获得所述两个实体间关系的评分值;若判断获知所述评分值大于预设值,则获取与所述评分值对应的所述两个实体之间的关系。5.根据权利要求1至4任一项所述的方法,其特征在于,建立所述关系抽取模型的步骤包括:在所述多种语言中,获取第二预设数量的实体对,所述第二预设数量的实体对中包括所述两个实体;在每种语言中,获得第三预设数量的与每个实体对相关的句子,并构建每个与所述每个实体对相关的句子的向量表示;根据所述某一种语言中每个与所述每个实体对相关的句子的向量表示以及所述预设的每个实体对间的关系的向量表示,获得所述某一种语言中与所述每个实体对相关的句子相对于所述多种语言中任一种语言的综合向量表示;根据所述第二预设数量的实体对对...

【专利技术属性】
技术研发人员:孙茂松林衍凯刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1