【技术实现步骤摘要】
知识图谱构建方法、系统、装置及存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种知识图谱构建方法、系统、装置及存储介质。
技术介绍
[0002]在行业知识图谱的构建过程中,对文本中实体间的关系抽取是一个关键而且是难度较大的问题。传统的基于规则识别的方法人力成本较高,且召回率较低,基于监督学习的方法需要标注大量的样本数据,对人力消耗同样很大,而基于半监督的方法虽然可以降低人力投入,但随着迭代次数的增加,其准确率也迅速下降。
技术实现思路
[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种知识图谱构建方法、系统、装置及存储介质,能够提高知识图谱构建效率的同时提高知识图谱的准确率。
[0004]一方面,本专利技术实施例提供了一种知识图谱构建方法,包括以下步骤:
[0005]获取文本数据;
[0006]对所述文本数据进行处理得到多个词语参数;
[0007]根据所述文本数据和多个所述词语参数确定差异向量,其中,通过以下步骤确定所述差异向 ...
【技术保护点】
【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括以下步骤:获取文本数据;对所述文本数据进行处理得到多个词语参数;根据所述文本数据和多个所述词语参数确定差异向量,其中,通过以下步骤确定所述差异向量:获取关系规则库和元组数据库;根据所述元组数据库中的第一元组数据抽取所述文本数据中的关系规则;根据所述关系规则和所述词语参数确定句子向量;通过主成分分析法,确定所述关系规则库的主成分特征向量;根据所述主成分特征向量确定所述句子向量中的差异向量;根据所述差异向量更新关系规则库,其中,通过以下步骤更新所述关系规则库:根据所述关系规则库对所述文本数据进行抽取得到第二元组数据,并更新所述元组数据库;基于新的所述元组数据库,根据所述文本数据和多个所述词语参数确定新的差异向量和新的关系规则;根据所述新的差异向量和所述差异向量的相似度,当所述相似度大于预设值,则根据所述新的关系规则更新所述关系规则库。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述词语参数包括词向量和tf
‑
idf值,所述对所述文本数据进行处理得到多个词语参数包括以下步骤:对所述文本数据进行分词处理得到多个词语;确定每个所述词语在所述文本数据中的词频;根据所述词频确定每个所述词语的所述tf
‑
idf值;通过神经网络编码模型确定每个所述词语的词向量。3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述根据所述关系规则和所述词语参数确定句子向量包括以下步骤:确定所述关系规则中所包含的多个所述词语参数;根据多个所述词语参数确定所述句子向量,其中,所述句子向量通过以下公式确定:其中,S表示句子向量,n表示所述句子向量中所包含的词语数量,t
i
表示第i个词语的tf
‑
idf值,V
i
表示第i个词语的词向量。4.根据权利要求3所述的知识图谱构建方法,其特征在于,所述根据所述主成分特征向量确定所述句子向量中的差异向量包括以下步骤:确定所述主成分特征向量中的第一个主成分;确定所述句子向量与所述句子向量在所述第一个主成分上的投影值之差,得到所述差异向量。5.根据权利要求4所述的知识图谱构建方法,其特征在于,所述差异向量通过以下公式确定:S
d
=S
‑
uu
T
S;
其中,S
d<...
【专利技术属性】
技术研发人员:李洁,龚晟,杨震,
申请(专利权)人:天翼物联科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。