实体消歧方法、装置、可读存储介质及电子设备制造方法及图纸

技术编号：23085128 阅读：9 留言：0更新日期：2020-01-11 01:10

本申请公开了一种实体消歧方法、装置、可读存储介质及电子设备，通过实体中每个字的字向量获得实体的向量，从而根据实体中的所有向量进行消歧。所述方法包括：首先将包括至少两个实体的待处理文本输入实体提取语言模型进行实体提取，获得待处理文本中所包括的实体；接着将待处理文本输入双向语言模型中进行处理，获得待处理文本的字向量序列；再接着获取任意一实体中的每个字的字向量；紧接着根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量；然后根据各实体的词向量计算每两个实体之间的相似度；最后根据待处理文本中，每两个实体之间的相似度对实体进行聚类，以实现实体消歧。本实施例所述方案，能够提高实体消歧的精确度。

Entity disambiguation method, device, readable storage medium and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
实体消歧方法、装置、可读存储介质及电子设备
本申请涉及自然语言处理领域，具体而言，涉及一种实体消歧方法、装置、可读存储介质及电子设备。
技术介绍
文本是由大量的词语组织而成，在组成文本的词语中通常会存在着大量的歧义实体词。对文本进行实体消歧后，可以根据实体消歧的结果实现信息提取、文本摘要的构建等，实体消歧的精度也直接影响到信息提取等的精度。现有技术中，在进行实体消歧时，一种方式是采用大量相关文本进行词向量训练，得到词嵌入矩阵，从待处理文本中抽取实体。将待处理文本中抽取到的实体转换为向量后对这些实体进行聚类，从而完成实体消歧。这种实体消歧方式，一个词只会对应一个词向量，如果一个词对应有多个含义，这种消歧方式则不能够将表达的不同含义区分出来。此外，对于词嵌入矩阵中不存在的新词，也无法转化为向量。因此，采用这种实体消歧方式进行消歧的结果存在较大的误差。
技术实现思路
为了至少克服现有技术中的上述不足，本申请的目的之一在于提供一种实体消歧方法，所述方法包括：将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取，获得待处理文本中所包括的实体；将所述待处理文本输入预先训练好的双向语言模型中进行处理，获得所述待处理文本的字向量序列，其中，所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成，所述字向量通过所述字的上下文关系计算得来；针对所述待处理文本中任意一实体，根据该任意一实体以及该任意一实体中的每个字在文本中的位置，从所述字向量...

【技术保护点】
1.一种实体消歧方法，其特征在于，所述方法包括：/n将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取，获得待处理文本中所包括的实体；/n将所述待处理文本输入预先训练好的双向语言模型中进行处理，获得所述待处理文本的字向量序列，其中，所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成，所述字向量通过所述字的上下文关系计算得来；/n针对所述待处理文本中任意一实体，根据该任意一实体以及该任意一实体中的每个字在文本中的位置，从所述字向量序列中获取该任意一实体中的每个字的字向量；/n根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量；/n根据各个实体的词向量计算每两个所述实体之间的相似度；/n根据所述待处理文本中，每两个实体之间的相似度对实体进行聚类，以实现实体消歧。/n

【技术特征摘要】
1.一种实体消歧方法，其特征在于，所述方法包括：
将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取，获得待处理文本中所包括的实体；
将所述待处理文本输入预先训练好的双向语言模型中进行处理，获得所述待处理文本的字向量序列，其中，所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成，所述字向量通过所述字的上下文关系计算得来；
针对所述待处理文本中任意一实体，根据该任意一实体以及该任意一实体中的每个字在文本中的位置，从所述字向量序列中获取该任意一实体中的每个字的字向量；
根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量；
根据各个实体的词向量计算每两个所述实体之间的相似度；
根据所述待处理文本中，每两个实体之间的相似度对实体进行聚类，以实现实体消歧。

2.根据权利要求1所述的方法，其特征在于，所述针对所述待处理文本中任意一实体，根据该任意一实体以及该任意一实体中的每个字在文本中的位置，从所述字向量序列中获取该任意一实体中的每个字的字向量的步骤包括：
基于所述待处理文本获得标识序列，其中，所述待处理文本中每个实体中的字所在位置采用第一标识符表示，除实体外的其他字采用第二标识符表示；
针对该任意一实体，根据该任意一实体中的每个字的第一标识符在所述标识序列中的位置获取字向量序列中对应位置的字向量，从而获得该任意一实体中每个字的字向量。

3.根据权利要求1所述的方法，其特征在于，所述根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量的步骤包括，计算该实体中所有字的字向量的平均向量，将所述平均向量作为该实体的词向量。

4.根据权利要求1所述的方法，其特征在于，所述根据各个实体的词向量计算每两个实体之间的相似度的步骤包括，采用余弦相似度算法计算每两个实体之间的相似度。

5.根据权利要求1所述的方法，其特征在于，在将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取，获得待处理文本中所包括的实体的步骤前，所述方法还包括：
将多个标注好实体的训练文本作为训练样本输入实体提取语言模型进行训练；
将输出的实体标注与标注好实体进行对比，计算得到本次训练的损失函数值；
若损失函数值小于预设损失值，判定...

【专利技术属性】
技术研发人员：陈栋，齐云飞，付骁弈，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人