实体消歧方法、装置、可读存储介质及电子设备制造方法及图纸

技术编号:23085128 阅读:9 留言:0更新日期:2020-01-11 01:10
本申请公开了一种实体消歧方法、装置、可读存储介质及电子设备,通过实体中每个字的字向量获得实体的向量,从而根据实体中的所有向量进行消歧。所述方法包括:首先将包括至少两个实体的待处理文本输入实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;接着将待处理文本输入双向语言模型中进行处理,获得待处理文本的字向量序列;再接着获取任意一实体中的每个字的字向量;紧接着根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;然后根据各实体的词向量计算每两个实体之间的相似度;最后根据待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。本实施例所述方案,能够提高实体消歧的精确度。

Entity disambiguation method, device, readable storage medium and electronic equipment

【技术实现步骤摘要】
实体消歧方法、装置、可读存储介质及电子设备
本申请涉及自然语言处理领域,具体而言,涉及一种实体消歧方法、装置、可读存储介质及电子设备。
技术介绍
文本是由大量的词语组织而成,在组成文本的词语中通常会存在着大量的歧义实体词。对文本进行实体消歧后,可以根据实体消歧的结果实现信息提取、文本摘要的构建等,实体消歧的精度也直接影响到信息提取等的精度。现有技术中,在进行实体消歧时,一种方式是采用大量相关文本进行词向量训练,得到词嵌入矩阵,从待处理文本中抽取实体。将待处理文本中抽取到的实体转换为向量后对这些实体进行聚类,从而完成实体消歧。这种实体消歧方式,一个词只会对应一个词向量,如果一个词对应有多个含义,这种消歧方式则不能够将表达的不同含义区分出来。此外,对于词嵌入矩阵中不存在的新词,也无法转化为向量。因此,采用这种实体消歧方式进行消歧的结果存在较大的误差。
技术实现思路
为了至少克服现有技术中的上述不足,本申请的目的之一在于提供一种实体消歧方法,所述方法包括:将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;根据各个实体的词向量计算每两个所述实体之间的相似度;根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。可选地,所述针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量的步骤包括:基于所述待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示;针对该任意一实体,根据该任意一实体中的每个字的第一标识符在标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。可选地,所述根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量的步骤包括,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。可选地,所述根据各个实体的词向量计算每两个实体之间的相似度的步骤包括,采用余弦相似度算法计算每两个实体之间的相似度。可选地,在将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体的步骤前,所述方法还包括:将多个标注好实体的训练文本作为训练样本输入实体提取语言模型进行训练;将输出的实体标注与标注好实体进行对比,计算得到本次训练的损失函数值;若损失函数值小于预设损失值,判定所述实体提取语言模型训练完成,若损失函数值不小于预设损失值,对所述实体提取语言模型中的参数进行调整,将多个标注好实体的训练文本作为训练样本输入参数调整后的实体提取语言模型中进行训练,重复上述步骤直到损失函数值小于预设损失值。本申请的另一目的在于提供一种实体消歧装置,所述装置包括:实体提取模块,用于将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;字向量获取模块,用于将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;字向量对应模块,用于针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;词向量计算模块,用于根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;相似度计算模块,用于根据各个实体的词向量计算每两个所述实体之间的相似度;实体消歧模块,用于根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。可选地,所述字向量对应模块具体用于:基于所述待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示;针对该任意一实体,根据该任意一实体中的每个字的第一标识符在标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。可选地,所述词向量计算模块具体用于,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。本申请的另一目的还在于一种可读存储介质,所述可读存储介质存储有可执行程序,处理器在执行所述可执行程序时,实现如本申请任一项所述的方法。本申请的另一目的还在于一种电子设备,所述电子设备包括存储器和处理器,所述存储器与所述处理器通信连接,所述存储器中存储有可执行程序,所述处理器在执行所述可执行程序时,实现如本申请任一项所述的方法。相对于现有技术而言,本申请具有以下有益效果:本申请实施例提供的实体消歧方法、装置、可读存储介质和电子设备,通过提取出文本中的各个实体,并提取出文本中各个字的字向量,然后根据实体中各个字在文本中的位置获得实体的各个字的字向量,进而计算出各个实体的词向量,然后根据各个实体的词向量计算相似度之后来进行实体消歧,由于各个字向量是与各个字的上下文相关的,因此,对于位置不同的相同实体,其向量表达也会和上下文相关,从而能够提高实体消歧的精确度。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本申请实施例提供的电子设备的结构示意图;图2是本申请实施例提供的实体消歧方法流程示意图一;图3是本申请实施例提供的实体消歧方法流程示意图二;图4是本申请实施例提供的实体消歧实体提取结果示意图;图5是本申请实施例提供的实体消歧方法流程示意图三;图6是本申请实施例提供的相似矩阵的示意图;图7是双向语言模型的输入数据的结构示意图;图8是双向语言模型训练过程中预测被掩盖字词的示意图一;图9是双向语言模型训练过程中预测被掩盖字词的示意图二;图10是本申请实施例提供的实体消歧装置的功能模块框图。图标:100-电子设备;110-实体本文档来自技高网...

【技术保护点】
1.一种实体消歧方法,其特征在于,所述方法包括:/n将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;/n将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;/n针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;/n根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;/n根据各个实体的词向量计算每两个所述实体之间的相似度;/n根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。/n

【技术特征摘要】
1.一种实体消歧方法,其特征在于,所述方法包括:
将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;
将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;
针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;
根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;
根据各个实体的词向量计算每两个所述实体之间的相似度;
根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。


2.根据权利要求1所述的方法,其特征在于,所述针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量的步骤包括:
基于所述待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示;
针对该任意一实体,根据该任意一实体中的每个字的第一标识符在所述标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。


3.根据权利要求1所述的方法,其特征在于,所述根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量的步骤包括,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。


4.根据权利要求1所述的方法,其特征在于,所述根据各个实体的词向量计算每两个实体之间的相似度的步骤包括,采用余弦相似度算法计算每两个实体之间的相似度。


5.根据权利要求1所述的方法,其特征在于,在将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体的步骤前,所述方法还包括:
将多个标注好实体的训练文本作为训练样本输入实体提取语言模型进行训练;
将输出的实体标注与标注好实体进行对比,计算得到本次训练的损失函数值;
若损失函数值小于预设损失值,判定...

【专利技术属性】
技术研发人员:陈栋齐云飞付骁弈
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1