一种概念知识图谱构建方法和装置制造方法及图纸

技术编号:26845661 阅读:13 留言:0更新日期:2020-12-25 13:07
本申请实施例提供一种概念知识图谱构建方法和装置,该方法包括:获取目标领域的文本数据;对文本数据进行实体识别,以提取出文本数据中的概念实体;获取概念实体之间待提取的关联关系的类型;调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别,以提取出概念实体之间的关联关系;根据概念实体和关联关系,构建目标领域对应的概念知识图谱。本申请实施例通过有针对性的提取出概念实体之间的隐含的且难以提取的关联关系,提高了关联关系提取的效率和准确率,并根据关联关系构建目标领域的概念知识图谱,提高构建概念知识图谱的效率和准确率。

【技术实现步骤摘要】
一种概念知识图谱构建方法和装置
本申请涉及数据处理领域,具体涉及一种概念知识图谱构建方法和装置。
技术介绍
目前,知识图谱在问答系统,检索系统,个人助手等领域取得了广泛的应用,然而具体领域的概念知识图谱的构建成本依然非常昂贵,因为概念实体之间的关系一般较为抽象,难以从一句话中识别出来。因此目前概念知识图谱的构建往往依赖于专家的参与,比如在教育领域概念知识图谱的构建,往往需要具有丰富经验的教育专家或高级教师参与,并且只能小规模应用,无法适用于大型网上授课系统的需求;在医疗领域概念知识图谱的构建,往往需要有丰富知识的医生或医学专家进行构建,并且无法满足从庞大医疗数据集中构建可用概念知识图谱的需要。由此可知,目前概念知识图谱的构建,普遍依赖于专家的参与,需耗费大量成本,且降低了概念知识图谱构建的效率。另一方面,目前的概念实体关系提取方法大都为基于深度学习的关系提取方法,基于深度学习的关系提取方法只能提取文本中概念实体之间较为明显的关系,而对于一些不明显的关系,基于深度学习的关系提取方法并不适用,造成关系提取的准确性降低。
技术实现思路
本申请实施例提供一种概念知识图谱构建方法和装置,可提高关联关系提取的准确性,提高概念知识图谱构建的效率和准确率。本申请实施例提供了一种概念知识图谱构建方法,包括:获取目标领域的文本数据;对文本数据进行实体识别,以提取出文本数据中的概念实体;获取概念实体之间待提取的关联关系的类型;调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别,以提取出概念实体之间的关联关系;根据概念实体和关联关系,构建目标领域对应的概念知识图谱。本申请实施例还提供了一种概念知识图谱构建装置,包括:文本获取单元,用于获取目标领域的文本数据;实体提取单元,用于对文本数据进行实体识别,以提取出文本数据中的概念实体;类型获取单元,用于获取概念实体之间待提取的关联关系的类型;关系提取单元,用于调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别,以提取出概念实体之间的关联关系;构建单元,用于根据概念实体和关联关系,构建目标领域对应的概念知识图谱。本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一种概念知识图谱构建方法。本申请实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述处理器和所述存储器相连接,所述一个或多个计算机程序被存储于所述存储器中,并配置为由所述处理器执行以实现上述任一种概念知识图谱构建方法。本申请实施例通过获取目标领域的文本数据,并自动提取出文本数据中的概念实体,在得到概念实体之后,根据待提取的关联关系的类型,调用类型对应的识别方式提取出概念实体之间的关联关系,再根据提取出的概念实体和概念实体之间的关联关系,构建概念知识图谱。本申请实施例根据待提取的关联关系的类型,调用类型对应的识别方式提取出概念实体之间的关联关系,可有针对性的提取出概念实体之间的隐含的(距离比较远)且难以提取的关联关系,提高了关联关系提取的效率和准确率,并根据关联关系构建目标领域的概念知识图谱,提高构建概念知识图谱的效率和准确率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的概念知识图谱构建系统的场景示意图;图2是本申请实施例提供的概念知识图谱构建方法的流程示意图;图3是本申请实施例提供的概念知识图谱构建方法的流程示意图;图4是本申请实施例提供的概念实体提取方法的流程示意图;图5是本申请实施例提供的概念实体提取方法的流程示意图;图6是本申请实施例提供的前置关系提取方法的流程示意图;图7是本申请实施例提供的前置关系提取方法的流程示意图;图8是本申请实施例提供的前置关系提取方法的流程示意图;图9是本申请实施例提供的前置关系提取方法的流程示意图;图10是本申请实施例提供的医疗领域概念知识图谱构建方法的流程示意图;图11是本申请实施例提供的教育领域概念知识图谱构建方法的流程示意图;图12是本申请实施例提供的概念知识图谱构建装置的结构示意图;图13是本申请实施例提供的计算机设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请涉及自然语言处理技术中的知识图谱,具体地,涉及概念知识图谱。其中,概念知识图谱,指的是由『概念实体-关联关系-概念实体』三元组构成的知识图谱,用可视化的方式描述概念实体以及概念实体之间的相互联系。实体,指的是客观存在并可相互区别的事物。概念实体,指的是特定领域的需要官方定义的抽象实体,且抽象实体之间可相互区别。比如教育领域的“线性代数”“有理数”等,医疗领域的“癌症”“肺癌”等。关联关系,指的是概念实体与概念实体之间的关系,概念实体与概念实体之间的关系包括多种,如前置关系,包含关系等,还包括本申请实施例中未提到的一些关系。前置关系、包含关系为隐含的关联关系,隐含的关联关系中的两个概念实体之间的距离(词距)比较远。其中,前置关系指的是两个概念实体之间的出现有一定的先后关系,将这种先后关系作为前置关系。比如在教育领域,先有“实数”,再有“有理数”,因为“有理数”是基于“实数”来进行定义的;如此,“实数”和“有理数”构成前置关系。再比如,“乘法运算”和“方程”构成前置关系;“倒数”和“微分”构成前置关系,等等。包含关系指的是一个概念实体包括另一个概念实体的关系。比如,在教育领域,“实数”和“有理数”构成包含关系,理解为“实数”包括“有理数”;“微积分”和“积分”构成包含关系,理解为“微积分”包括“积分”。再比如,在医疗领域,“癌症”和“肺癌”构成包含关系,理解为“癌症”包括“肺癌”,等等。本申请实施例提供一种概念本文档来自技高网...

【技术保护点】
1.一种概念知识图谱构建方法,其特征在于,包括:/n获取目标领域的文本数据;/n对所述文本数据进行实体识别,以提取出所述文本数据中的概念实体;/n获取所述概念实体之间待提取的关联关系的类型;/n调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别,以提取出所述概念实体之间的关联关系;/n根据所述概念实体和所述关联关系,构建所述目标领域对应的概念知识图谱。/n

【技术特征摘要】
1.一种概念知识图谱构建方法,其特征在于,包括:
获取目标领域的文本数据;
对所述文本数据进行实体识别,以提取出所述文本数据中的概念实体;
获取所述概念实体之间待提取的关联关系的类型;
调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别,以提取出所述概念实体之间的关联关系;
根据所述概念实体和所述关联关系,构建所述目标领域对应的概念知识图谱。


2.根据权利要求1所述的概念知识图谱构建方法,其特征在于,所述对所述文本数据进行实体识别,以提取出所述文本数据中的概念实体的步骤,包括:
利用预设的预训练模型对所述文本数据进行特征提取,以得到词嵌入向量;
基于注意力机制,对所述词嵌入向量进行实体识别,以得到所述文本数据中的概念实体。


3.根据权利要求2所述的概念知识图谱构建方法,其特征在于,所述利用预设的预训练模型对所述文本数据进行特征提取,以得到词嵌入向量的步骤,包括:
获取所述目标领域中专业词汇的知识库;
利用预设的预训练模型,基于所述知识库对所述文本数据进行特征提取,以得到词嵌入向量。


4.根据权利要求2所述的概念知识图谱构建方法,其特征在于,所述基于注意力机制,对所述词嵌入向量进行实体识别,以得到所述文本数据中的概念实体的步骤,包括:
将所述词嵌入向量输入至预设神经网络层进行特征处理,以得到文本特征序列;
基于注意力机制,对所述文本特征序列进行权重处理,以得到包括权重信息的文本特征序列;
将包括权重信息的文本特征序列输入至预设激活函数中进行激活处理,以得到文本特征序列的概念实体标签的概率分布结果;
将所述概率分布结果输入至条件随机场层进行识别处理,以得到所述文本数据中的概念实体。


5.根据权利要求4所述的概念知识图谱构建方法,其特征在于,所述基于注意力机制,对所述文本特征序列进行权重处理,以得到包括权重信息的文本特征序列的步骤,包括:
获取注意力权重矩阵;
根据注意力权重矩阵和所述文本特征序列,确定所述文本特征序列对应的权重信息;
对所述文本特征序列和所述权重信息进行拼接处理,以得到包括权重信息的文本特征序列。


6.根据权利要求1所述的概念知识图谱构建方法,其特征在于,所述关联关系包括前置关系,所述调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别,以提取出所述概念实体之间的关联关系的步骤,包括:
根据所述文本数据和所述文本数据中的概念实体,确定所述文本数据中概念实体之间的...

【专利技术属性】
技术研发人员:陈灿宇赵瑞辉赵博
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1