【技术实现步骤摘要】
用于自动生成知识图谱的设备
[0001]本专利技术涉及一种用于自动分析多语种(multilingual)文本的设备,一种用于对所述设备进行训练的训练系统,一种用于自动生成知识图谱(Wissensgraphen)的设备以及一种机器可读存储介质。
技术介绍
[0002]本体(Ontologie),也称为知识图谱(英语:knowledge graph),是实体及这些实体之间关系的结构化表示。本体用于以正式形式在计算机实现的应用程序之间交换知识。
[0003]在从文本中提取信息以填充知识图谱时,时间表达(Zeitausdr
ü
cken)的识别也起着重要作用:例如,实体之间的某些关系仅在有限的时间内有效(例如人员的居住地或雇主)。所谓的“时态标记(Temporal Tagging)”致力于对文本中时间表达的自动识别。迄今为止对此的工作(Arbeit)均使用单语种模型,即语言特定的模型,这些模型只能应用于特定语言的文本,但不能应用于其他语言的文本。
[0004]Yaroslav Ganin等人在2015 ...
【技术保护点】
【技术特征摘要】
1.用于自动分析多语种文本的设备(100),所述设备包括嵌入器(25)和时态标记器(30),所述嵌入器被设立为,向所述多语种文本(10)中的文本组成部分(10a,10b)分别分配数字表示(12a,12b),所述时态标记器被设立为,根据所分配的所述数字表示(12a,12b)来标识和标记所述多语种文本(10)中的时态表达,其中所述嵌入器(25)被设立为,尽可能地如此分配时态表达的数字表示(12a,12b),使得不可能基于所述数字表示(12a,12b)来确定所属的所述文本组成部分(10a,10b)是以哪种语言撰写的。2.根据权利要求1所述的设备,其中,所述嵌入器(25)被设立为,将所有语言的所有时态表达映射到唯一的向量空间。3.根据权利要求1或2所述的设备,其中,所述嵌入器(25)包括机器学习系统,所述机器学习系统已被训练为如此分配时态表达的数字表示,使得对于鉴别器(50)而言尽可能无法根据所述数字表示(12a,12b)来决定所述时态表达属于哪种语言,其中所述鉴别器被设立为,根据所述数字表示(12a,12b)确定提供给所述鉴别器的文本组成部分(10a,10b)属于哪种语言。4.根据权利要求3所述的设备,其中,所述机器学习系统包括神经网络。5.根据权利要求4所述的设备,其中,所述神经网络是BERT模型。6.根据权利要求3至5中任一项所述的设备,其中,所述鉴别器(50)包括第二机器学习系统。7.根据权利要求6所述的设备(100),其中,所述第二机器学习系统包括第二神经网络。8.根据权利要求7所述的设备(100),其中,鉴别器(50)和嵌入器(25)已被共同地对抗训练。9.根据权利要求8所述的设备(100),其中,所述鉴别器(50)已经利用梯度反转方法被训练。10.根据权利要求6至9中任一项所述的设备(100),其中,所述鉴别器(50)已被训练为能够根据所述时态表达的数字表示(12a,12b)来尽可能好地决定所述时态表达属于哪种语言。11.根据权利要求3至10中任一项所述的设备(100),其中,所述时态标记器(30)包括第三机器学习系统。12.根据权利要求11所述的设备(100),其中,所述第三机器学习系统包括第三神经网络。13.根据权利要求11或12中任一项所述的设备(100),其中,所述时态标记器(30)已被训练为能够根据所述数字表示(12a,12b)尽可能好地决定所属的文本模块(10a,10b)是否为时态表达。14.根据权利要求13和8所述的设备(100),其中,鉴别器(50)和嵌入器(25)以及时态标记器(30)已被共同地对抗训练。15.根据权利要求3至14中任一项所述的设备,其中,在训练鉴别器(50)和嵌入器(25)时使用的训练数据已被划分为批次,使得每个批次都包含来自可预给定的多种语言中的分别所选的多种语言的训练示例。16.根据权利要求15所述的设备,其中,在训练鉴别器(50)和嵌入器(25)时使用的训练数据已被划分为批次,使得每个批次都包含来自可预给定的多种语言中的每种语言的训练
示例。17.根据权利要求3至16中任一项所述的设备,其中,鉴别器(50)、嵌入器(25)和...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。