一种基于多种语言的实体关系抽取方法及服务器技术

技术编号：16427791 阅读：52 留言：0更新日期：2017-10-21 22:30

本发明专利技术公开一种基于多种语言的实体关系抽取方法及服务器。其中，所述方法包括：在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子，并构建每个与两个实体相关的句子的向量表示；根据某一种语言中每个与两个实体相关的句子的向量表示以及预设的两个实体间的关系的向量表示，获得所述某一种语言中与两个实体相关的句子相对于多种语言中任意一种语言的综合向量表示；根据各个所述综合向量表示以及预先建立的关系抽取模型，在所述预设的两个实体间的关系中抽取两个实体间的关系。所述服务器用于执行上述方法。本发明专利技术提供的基于多种语言的实体关系抽取方法及服务器，提高了两个实体间关系抽取的准确性。

An entity relation extraction method and server based on multi language

The invention discloses a method for extracting entity relations based on multi languages and a server. Among them, the method comprises: acquiring two entities to be extracted relations in many languages and sentences in each language in the first preset number and the two related entities, each associated with vector and construct two entity representation of a sentence; according to each vector in a certain language related the two entity sentence representation and vector relation between two entities of presupposition, the one language associated with two sentences with respect to any entity integrated vector in many languages of a language; according to each of the integrated vector and relation extraction model established, the relationship between the two entity extraction between two entities in the default between the. The server is used for executing the above method. The method and the server based on the multi language entity relation provided by the invention improve the accuracy of the relation extraction between the two entities.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多种语言的实体关系抽取方法及服务器
本专利技术涉及信息处理
，具体涉及一种基于多种语言的实体关系抽取方法及服务器。
技术介绍
随着社会飞速发展，我们已经进入信息爆炸时代，每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台，用户对有效信息筛选与归纳的需求日益迫切，如何从海量数据中获取有价值的信息成为一个难题。为了结构化地对现实世界的知识进行存储和处理，人们建立了很多大规模的知识图谱，例如Wikidata和Dbpedia等。知识图标将世界上所有人物、地名、机构名等专有名词与事物表示为实体，将实体之间的内在联系表示为关系，旨在将数据库中的海量知识表示为实体之间的利用关系，例如，“纽约是美国的一座城市”这一知识，在知识图谱中则利用三元组关系(纽约，是……的一座城市，美国)进行表示，“纽约”和“美国”为实体，“是……的一座城市”为关系。目前，关系抽取作为一种从自然文本中抽取有结构数据的方法，得到了广泛应用。现有关系抽取都需要大量的人工标注数据，非常的耗时耗力。针对这个问题，基于远程监督的关系抽取方法提出可以通过对纯文本和知识库之间进行对其来自动产生训练数据。但是，这种远程监督产生的训练数据存在一个严重的问题，就是产生的训练数据噪音非常严重，因为并不是所有的包含两个实体的句子都会反映他们两者之间的关系。为了降低噪声，传统非神经网络的方法通常通过概率图模型的方法优化句子与两个实体关系之间关系。而上述关系抽取的方法，专注于在单语言数据上进行关系抽取，并没有涉及到对多语言数据进行关系提取。因此，如何提出一种方法，能够基于多种语言资源，提高两...
一种基于多种语言的实体关系抽取方法及服务器

【技术保护点】
一种基于多种语言的实体关系抽取方法，其特征在于，包括：在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子，并构建每个与所述两个实体相关的句子的向量表示；根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示，获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示；根据各个所述综合向量表示以及预先建立的关系抽取模型，在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。

【技术特征摘要】
1.一种基于多种语言的实体关系抽取方法，其特征在于，包括：在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子，并构建每个与所述两个实体相关的句子的向量表示；根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示，获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示；根据各个所述综合向量表示以及预先建立的关系抽取模型，在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系。2.根据权利要求1所述的方法，其特征在于，所述构建每个与所述两个实体相关的句子的向量表示包括：分别构建所述句子中每个词的词向量，所述词向量为所述词的内容向量和位置向量的拼接；根据所述句子对应的所有词向量，获得所述句子的向量表示。3.根据权利要求1所述的方法，其特征在于，所述根据某一种语言中每个与所述两个实体相关的句子的向量表示以及预设的所述两个实体间的关系的向量表示，获得所述某一种语言中与所述两个实体相关的句子相对于所述多种语言中任意一种语言的综合向量表示包括：采用语言选择注意力机制获得所述综合向量表示，其中：根据公式计算获得语言j中所有与所述两个实体相关的句子相对于语言k的综合向量表示Sjk，其中，所述语言j与所述语言k是所述多种语言中的任意一种语言，表示所述语言j中第i个与所述两个实体相关的句子的向量表示相对于所述语言k的语言选择注意力权重，i为正整数，n等于所述第一预设数量；根据公式计算获得所述语言选择注意力权重其中，表示所述语言j中第i个与所述两个实体相关的句子的向量表示与所述预设的所述两个实体间的关系之间的关联程度；根据公式计算获得所述关联程度其中，r为所述预设的所述两个实体间的关系的向量表示。4.根据权利要求1所述的方法，其特征在于，所述根据各个所述综合向量表示以及预设的关系抽取模型，在所述预设的所述两个实体间的关系中抽取所述两个实体间的关系包括：根据各个所述综合向量表示以及所述关系抽取模型，计算获得所述两个实体间关系的评分值；若判断获知所述评分值大于预设值，则获取与所述评分值对应的所述两个实体之间的关系。5.根据权利要求1至4任一项所述的方法，其特征在于，建立所述关系抽取模型的步骤包括：在所述多种语言中，获取第二预设数量的实体对，所述第二预设数量的实体对中包括所述两个实体；在每种语言中，获得第三预设数量的与每个实体对相关的句子，并构建每个与所述每个实体对相关的句子的向量表示；根据所述某一种语言中每个与所述每个实体对相关的句子的向量表示以及所述预设的每个实体对间的关系的向量表示，获得所述某一种语言中与所述每个实体对相关的句子相对于所述多种语言中任一种语言的综合向量表示；根据所述第二预设数量的实体对对...

【专利技术属性】
技术研发人员：孙茂松，林衍凯，刘知远，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人