【技术实现步骤摘要】
一种概念知识图谱构建方法和装置
本申请涉及数据处理领域,具体涉及一种概念知识图谱构建方法和装置。
技术介绍
目前,知识图谱在问答系统,检索系统,个人助手等领域取得了广泛的应用,然而具体领域的概念知识图谱的构建成本依然非常昂贵,因为概念实体之间的关系一般较为抽象,难以从一句话中识别出来。因此目前概念知识图谱的构建往往依赖于专家的参与,比如在教育领域概念知识图谱的构建,往往需要具有丰富经验的教育专家或高级教师参与,并且只能小规模应用,无法适用于大型网上授课系统的需求;在医疗领域概念知识图谱的构建,往往需要有丰富知识的医生或医学专家进行构建,并且无法满足从庞大医疗数据集中构建可用概念知识图谱的需要。由此可知,目前概念知识图谱的构建,普遍依赖于专家的参与,需耗费大量成本,且降低了概念知识图谱构建的效率。另一方面,目前的概念实体关系提取方法大都为基于深度学习的关系提取方法,基于深度学习的关系提取方法只能提取文本中概念实体之间较为明显的关系,而对于一些不明显的关系,基于深度学习的关系提取方法并不适用,造成关系提取的准确性降低。
技术实现思路
本申请实施例提供一种概念知识图谱构建方法和装置,可提高关联关系提取的准确性,提高概念知识图谱构建的效率和准确率。本申请实施例提供了一种概念知识图谱构建方法,包括:获取目标领域的文本数据;对文本数据进行实体识别,以提取出文本数据中的概念实体;获取概念实体之间待提取的关联关系的类型;调用类型对应的识别方式对文本数据和文本数据中的概念实体 ...
【技术保护点】
1.一种概念知识图谱构建方法,其特征在于,包括:/n获取目标领域的文本数据;/n对所述文本数据进行实体识别,以提取出所述文本数据中的概念实体;/n获取所述概念实体之间待提取的关联关系的类型;/n调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别,以提取出所述概念实体之间的关联关系;/n根据所述概念实体和所述关联关系,构建所述目标领域对应的概念知识图谱。/n
【技术特征摘要】
1.一种概念知识图谱构建方法,其特征在于,包括:
获取目标领域的文本数据;
对所述文本数据进行实体识别,以提取出所述文本数据中的概念实体;
获取所述概念实体之间待提取的关联关系的类型;
调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别,以提取出所述概念实体之间的关联关系;
根据所述概念实体和所述关联关系,构建所述目标领域对应的概念知识图谱。
2.根据权利要求1所述的概念知识图谱构建方法,其特征在于,所述对所述文本数据进行实体识别,以提取出所述文本数据中的概念实体的步骤,包括:
利用预设的预训练模型对所述文本数据进行特征提取,以得到词嵌入向量;
基于注意力机制,对所述词嵌入向量进行实体识别,以得到所述文本数据中的概念实体。
3.根据权利要求2所述的概念知识图谱构建方法,其特征在于,所述利用预设的预训练模型对所述文本数据进行特征提取,以得到词嵌入向量的步骤,包括:
获取所述目标领域中专业词汇的知识库;
利用预设的预训练模型,基于所述知识库对所述文本数据进行特征提取,以得到词嵌入向量。
4.根据权利要求2所述的概念知识图谱构建方法,其特征在于,所述基于注意力机制,对所述词嵌入向量进行实体识别,以得到所述文本数据中的概念实体的步骤,包括:
将所述词嵌入向量输入至预设神经网络层进行特征处理,以得到文本特征序列;
基于注意力机制,对所述文本特征序列进行权重处理,以得到包括权重信息的文本特征序列;
将包括权重信息的文本特征序列输入至预设激活函数中进行激活处理,以得到文本特征序列的概念实体标签的概率分布结果;
将所述概率分布结果输入至条件随机场层进行识别处理,以得到所述文本数据中的概念实体。
5.根据权利要求4所述的概念知识图谱构建方法,其特征在于,所述基于注意力机制,对所述文本特征序列进行权重处理,以得到包括权重信息的文本特征序列的步骤,包括:
获取注意力权重矩阵;
根据注意力权重矩阵和所述文本特征序列,确定所述文本特征序列对应的权重信息;
对所述文本特征序列和所述权重信息进行拼接处理,以得到包括权重信息的文本特征序列。
6.根据权利要求1所述的概念知识图谱构建方法,其特征在于,所述关联关系包括前置关系,所述调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别,以提取出所述概念实体之间的关联关系的步骤,包括:
根据所述文本数据和所述文本数据中的概念实体,确定所述文本数据中概念实体之间的...
【专利技术属性】
技术研发人员:陈灿宇,赵瑞辉,赵博,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。