实体链接方法、系统、存储介质及电子设备技术方案

技术编号:30782847 阅读:49 留言:0更新日期:2021-11-16 07:44
本申请公开了一种实体链接方法、系统、存储介质及电子设备,实体链接方法包括:文档实体列表获得步骤:使用实体识别模型对在线文档进行实体识别,获得文档实体列表;用户名称获取步骤:为每一登陆用户分配一个I D获得标识i d,通过所述标识i d获得用户名称列表;摘要向量获取步骤:根据在线文档通过TextRank算法获取所述在线文档的摘要向量;链接步骤:根据所述文档实体列表及所述用户名称列表获取词向量,根据所述词向量及所述摘要向量获得相似度,根据所述相似度及所设置的阈值进行实体链接。本发明专利技术利用了文本摘要、图中的实体、实体属性、关系的相关度高低情况,提高了实体链接的准确率和召回率。准确率和召回率。准确率和召回率。

【技术实现步骤摘要】
实体链接方法、系统、存储介质及电子设备


[0001]本专利技术属于实体链接领域,具体涉及一种实体链接方法、系统、存储介质及电子设备。

技术介绍

[0002]随着互联网、云技术和人工智能的兴起和快速发展,文本数据出现爆炸式增长,由于在线文档能够支持用户随时随地的对文档进行编辑、多用户之间协同编辑、云端存储等特性,越来越受用户和企业的青睐。相应的就会产生越来越多的在线数据,用户和企业迫切需要高效、智能的在线文本分析技术,来理解数据的真实意义,从而帮助用户和企业快速获取有用信息。实体链接技术是一种文本分析技术,它将文本数据中出现的词或词组做为实体,关联到知识图谱库中对应的实体ID。这样,用户就可以通过实体链接来理解文本数据的真实含义,为我们理解文本数据的语义信息提供了很大便利。
[0003]针对非在线文档,当前实体链接的主要做法是,对文本中的实体,以及文本实体的上下文语义向量,与知识图谱中的候选实体、实体属性向量和关系向量进行相似度计算,并对相似度分值进行排序,相似度分值超过阈值则关联到知识库实体,否则,不关联。

技术实现思路

[0004]本申请实施例提供了一种实体链接方法、系统、存储介质及电子设备,以至少解决现有的实体链接方法中只针对非在线文档的实体链接的问题。
[0005]本专利技术提供了一种实体链接方法,其中,包括:
[0006]文档实体列表获得步骤:使用实体识别模型对在线文档进行实体识别,获得文档实体列表;
[0007]用户名称获取步骤:为每一登陆用户分配一个ID获得标识id,通过所述标识id获得用户名称列表;
[0008]摘要向量获取步骤:根据在线文档通过TextRank算法获取所述在线文档的摘要向量;
[0009]链接步骤:根据所述文档实体列表及所述用户名称列表获取词向量,根据所述词向量及所述摘要向量获得相似度,根据所述相似度及所设置的阈值进行实体链接。
[0010]上述实体链接方法,其中,所述摘要向量获取步骤包括:
[0011]分割步骤:把所述在线文本分割成多个组成单元;
[0012]构建步骤:构建节点连接图;
[0013]计算步骤:用句子之间的相似度作为边的权重,通过TextRank公式循环迭代计算句子的TextRank值;
[0014]组成步骤:抽取所述TextRank值排名高的句子组合成文本摘要;
[0015]摘要向量计算步骤:对所述文本摘要进行处理后获得多个特征词向量,根据所述特征词向量获得所述摘要向量。
[0016]上述实体链接方法,其中,所述链接步骤包括:
[0017]记录每一条关系路径中的节点名称,节点属性,实体关系,获取关系路径中的节点名称,节点属性,实体关系的词向量,相加构成词向量值,记录节点的id值。
[0018]上述实体链接方法,其中,所述链接步骤包括:
[0019]组成步骤:获取所述在线文档实体列表中的每一个实体,与多用户名称列表中的每一个用户名称,组成实体对;
[0020]搜索步骤:在知识图谱中搜索名称为实体对中所指节点间的关系;
[0021]判断步骤:如果所述节点间存在关系路径,记录每一条所述关系路径中的节点名称,节点属性,实体关系,获取所述节点名称、所述节点属性及所述实体关系的词向量,相加构成词向量值,记录所述节点的id值。
[0022]上述实体链接方法,其中,所述判断步骤包括:
[0023]相似度的最大值获取步骤:取每一个用户名称和所述在线文档实体有关系的关系值与所述摘要向量计算相似度,并取所述相似度的最大值;
[0024]候选实体最大值获取步骤:对于所述在线文档中所有实体,在所述知识图谱中搜索相同名字的所有节点,获取所述节点名称、属性和它的每一条关系,获取词向量,相加构成中间值,并计算所述中间值向量与所述摘要向量的相似度,取多个候选实体中相似度的最大值;
[0025]根据权重计算得分步骤:如果相似度的最大值不为0,则给所述相似度的最大值较高的权重,所述候选实体最大值相对低的权重,组合成最后得分;如果所述相似度的最大值为0,则只取所述实体最大值分值。
[0026]本专利技术还提供了一种实体链接系统,其中,包括:
[0027]文档实体列表获得模块,所述文档实体列表获得模块使用实体识别模型对在线文档进行实体识别,获得文档实体列表;
[0028]用户名称获取模块,所述用户名称获取模块为每一登陆用户分配一个ID获得标识id,通过所述标识id获得用户名称列表;
[0029]摘要向量获取模块,所述摘要向量获取模块根据在线文档通过TextRank算法获取所述在线文档的摘要向量;
[0030]链接模块,所述链接模块根据所述文档实体列表及所述用户名称列表获取词向量,根据所述词向量及所述摘要向量获得相似度,根据所述相似度及所设置的阈值进行实体链接。
[0031]上述实体链接系统,其中,所述摘要向量获取模块包括:
[0032]分割单元,所述分割单元把所述在线文本分割成多个组成单元;
[0033]构建单元,所述构建单元构建节点连接图;
[0034]计算单元,所述计算单元用句子之间的相似度作为边的权重,通过TextRank公式循环迭代计算句子的TextRank值;
[0035]组成单元,所述组成单元抽取所述TextRank值排名高的句子组合成文本摘要;
[0036]摘要向量计算单元,所述摘要向量计算单元对所述文本摘要进行处理后获得多个特征词向量,根据所述特征词向量获得所述摘要向量。
[0037]上述实体链接系统,其中,所述链接模块包括:
[0038]记录每一条关系路径中的节点名称,节点属性,实体关系,获取关系路径中的节点名称,节点属性,实体关系的词向量,相加构成词向量值,记录节点的id值。
[0039]本专利技术还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现任一所述的实体链接方法。
[0040]本专利技术还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现任一所述的实体链接方法。
[0041]本专利技术的有益效果在于:
[0042]本专利技术属于信息检索技术中的知识增强检索领域。本专利技术充分利用在线文档的特征,多用户协作,来进行实体链接,通过查找每个用户与在线文档每个实体之间在知识图谱中的关系来进行实体链接,并且利用了文本摘要、图中的实体、实体属性、关系的相关度高低情况,提高了实体链接的准确率和召回率。
附图说明
[0043]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
[0044]在附图中:
[0045]图1是本专利技术的实体链接方法的流程图;
[0046]图2是本专利技术步骤S3的分步骤流程图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:文档实体列表获得步骤:使用实体识别模型对在线文档进行实体识别,获得文档实体列表;用户名称获取步骤:为每一登陆用户分配一个ID获得标识id,通过所述标识id获得用户名称列表;摘要向量获取步骤:根据在线文档通过TextRank算法获取所述在线文档的摘要向量;链接步骤:根据所述文档实体列表及所述用户名称列表获取词向量,根据所述词向量及所述摘要向量获得相似度,根据所述相似度及所设置的阈值进行实体链接。2.如权利要求1所述的实体链接方法,其特征在于,所述摘要向量获取步骤包括:分割步骤:把所述在线文本分割成多个组成单元;构建步骤:构建节点连接图;计算步骤:用句子之间的相似度作为边的权重,通过TextRank公式循环迭代计算句子的TextRank值;组成步骤:抽取所述TextRank值排名高的句子组合成文本摘要;摘要向量计算步骤:对所述文本摘要进行处理后获得多个特征词向量,根据所述特征词向量获得所述摘要向量。3.如权利要求2所述的实体链接方法,其特征在于,所述链接步骤包括:记录每一条关系路径中的节点名称,节点属性,实体关系,获取关系路径中的节点名称,节点属性,实体关系的词向量,相加构成词向量值,记录节点的id值。4.如权利要求3所述的实体链接方法,其特征在于,所述链接步骤包括:组成步骤:获取所述在线文档实体列表中的每一个实体,与多用户名称列表中的每一个用户名称,组成实体对;搜索步骤:在知识图谱中搜索名称为实体对中所指节点间的关系;判断步骤:如果所述节点间存在关系路径,记录每一条所述关系路径中的节点名称,节点属性,实体关系,获取所述节点名称、所述节点属性及所述实体关系的词向量,相加构成词向量值,记录所述节点的id值。5.如权利要求4所述的实体链接方法,其特征在于,所述判断步骤包括:相似度的最大值获取步骤:取每一个用户名称和所述在线文档实体有关系的关系值与所述摘要向量计算相似度,并取所述相似度的最大值;候选实体最大值获取步骤:对于所述在线文档中所有实体,在所述知识图谱中搜索相同名字的所有节点,获取所述节点名称、属性和它的每一条关系,获取词向量,相加构...

【专利技术属性】
技术研发人员:崔小波
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1