一种知识库文档和知识图谱实体关联的方法及系统技术方案

技术编号:29964077 阅读:33 留言:0更新日期:2021-09-08 09:28
本发明专利技术涉及一种知识库文档和知识图谱实体关联的方法及系统,该方法包括:对文本进行实体识别,得到实体列表;根据实体列表中的实体在知识图谱库中进行搜索,得到至少一个候选实体;分别计算文本的第一特征信息与每个候选实体以及候选实体的至少一个关联节点的第二特征信息的相似度,将计算得到的各个相似度按照对应的权重进行加权计算,得到每个候选实体对应的总相似度;将实体与超过阈值的最大总相似度对应的候选实体进行关联。本发明专利技术能够有效提高实体关联的准确率和召回率。提高实体关联的准确率和召回率。提高实体关联的准确率和召回率。

【技术实现步骤摘要】
一种知识库文档和知识图谱实体关联的方法及系统


[0001]本专利技术涉及知识图谱领域,具体涉及一种知识库文档和知识图谱实体关联的方法及系统。

技术介绍

[0002]随着互联网、知识工程和人工智能的兴起和快速发展,文本数据出现爆炸式增长,人们迫切需要高效、智能的文本分析技术,来理解数据的真实意义,从而帮助人们或组织快速获取有用信息。实体关联技术是一种文本分析技术,它将文本数据中出现的词或词组作为实体,关联到知识图谱库中对应的实体ID。这样,人们就可以通过实体关联来理解文本数据的真实含义,为我们理解文本数据的语义信息提供了很大便利。
[0003]当前实体关联的主要做法是,对文本中的实体,以及文本实体的上下文语义向量,与图谱中的候选实体的属性向量进行相似度计算,并对相似度分值进行排序,相似度分值超过阈值则关联到知识库实体,否则,不关联。这种方法存在的一个问题是,如果对于知识库文档中的部分实体名称,其上下文描述信息与图谱中的实体属性相关度很低,但是和别的信息关联较高,如关系节点,一度关系,二度关系等,则不能够关联到图谱中的实体ID,造成实体关联本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种知识库文档和知识图谱实体关联的方法,其特征在于,包括:对文本进行实体识别,得到实体列表;根据所述实体列表中的实体在知识图谱库中进行搜索,得到至少一个候选实体;分别计算所述文本的第一特征信息与每个所述候选实体以及所述候选实体的至少一个关联节点的第二特征信息的相似度,将计算得到的各个相似度按照对应的权重进行加权计算,得到每个候选实体对应的总相似度;将所述实体与超过阈值的最大总相似度对应的候选实体进行关联。2.根据权利要求1所述的方法,其特征在于,所述第一特征信息为所述文本的特征词的词向量之和,所述第二特征信息为节点名称和属性的词向量之和。3.根据权利要求1或2所述的方法,其特征在于,还包括:查询所述实体列表中的实体在知识库的文档中的位置,得到所述实体对应的位置列表。4.根据权利要求3所述的方法,其特征在于,还包括:对所述知识库的文档在所述位置列表的位置中的实体的格式进行强调处理。5.一种知识库文档和知识图谱实体关联的系统,其特征在于,包括:实体识别模块,用于对文本进行实体识别,得到实体列表;候选实体搜索模块,用于根据所述实体列表中的实体在知识图谱库中进行搜索,得到至少一个候选实体;相似度计算模块,用于分别计算所述文本的第一特征信息与每...

【专利技术属性】
技术研发人员:何吉波
申请(专利权)人:无锡智眼慧驾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1