信息提取方法、信息提取模型训练方法、装置及存储介质制造方法及图纸

技术编号:24498004 阅读:27 留言:0更新日期:2020-06-13 03:49
本申请实施例公开了一种信息提取方法、信息提取模型训练方法、装置及存储介质,属于计算机技术领域。该方法包括:获取待提取的目标文本,获取信息提取模型,通过信息提取模型,对目标文本进行信息提取,得到目标文本包含的目标实体和目标实体对应的目标关系。由于该信息提取模型是采用样本实体及对应的样本关系训练得到的,且样本实体是采用不同的实体提取方式得到的,以使丰富了样本实体,从而提高了训练的信息提取模型的准确性,以使通过该训练后的信息提取模型对目标文本进行信息提取,从而提高了得到的目标实体及对应的目标关系的准确性。

Information extraction method, information extraction model training method, device and storage medium

【技术实现步骤摘要】
信息提取方法、信息提取模型训练方法、装置及存储介质
本申请实施例涉及计算机
,特别涉及一种信息提取方法、信息提取模型训练方法、装置及存储介质。
技术介绍
随着计算机技术的发展,知识图谱的应用越来越广泛,常用于医疗领域、金融领域等。知识图谱是用来描述真实世界中存在的各种实体及实体之间的关系,通过从文本中提取实体及实体之间的关系,能够构建知识图谱。因此如何提取文本中的实体及实体之间的关系成为亟待解决的问题。相关技术提供了一种信息提取方法,将文本中的名词作为实体,将相邻的两个实体间的动词作为关系。由于上述提取实体和关系的方式过于简单,导致提取的实体和关系的准确性差。
技术实现思路
本申请实施例提供了一种信息提取方法、信息提取模型训练方法、装置及存储介质,能够提高提取的实体和关系的准确性。所述技术方案如下:一方面,提供了一种信息提取方法,所述方法包括:获取待提取的目标文本,所述目标文本包括至少一个单词;获取信息提取模型,所述信息提取模型的输入样本包括样本文本,输出样本包括至少一个第一样本本文档来自技高网...

【技术保护点】
1.一种信息提取方法,其特征在于,所述方法包括:/n获取待提取的目标文本,所述目标文本包括至少一个单词;/n获取信息提取模型,所述信息提取模型的输入样本包括样本文本,输出样本包括至少一个第一样本实体、多个第二样本实体和所述多个第二样本实体中任两个第二样本实体对应的样本关系,所述第一样本实体和所述第二样本实体采用不同的实体提取方式从所述样本文本中提取;/n通过所述信息提取模型,对所述目标文本进行信息提取,得到所述目标文本包含的目标实体和所述目标实体对应的目标关系。/n

【技术特征摘要】
1.一种信息提取方法,其特征在于,所述方法包括:
获取待提取的目标文本,所述目标文本包括至少一个单词;
获取信息提取模型,所述信息提取模型的输入样本包括样本文本,输出样本包括至少一个第一样本实体、多个第二样本实体和所述多个第二样本实体中任两个第二样本实体对应的样本关系,所述第一样本实体和所述第二样本实体采用不同的实体提取方式从所述样本文本中提取;
通过所述信息提取模型,对所述目标文本进行信息提取,得到所述目标文本包含的目标实体和所述目标实体对应的目标关系。


2.根据权利要求1所述的方法,其特征在于,所述信息提取模型包括实体提取子模型,所述实体提取子模型包括第一嵌入层、第一编码层和第一输出层;所述通过所述信息提取模型,对所述目标文本进行信息提取,得到所述目标文本包含的目标实体和所述目标实体对应的目标关系,包括:
通过所述第一嵌入层,获取所述目标文本中的多个单词的词向量;
通过所述第一编码层,根据每个单词的相邻单词的词向量,对所述每个单词的词向量进行重新编码,得到所述每个单词更新后的词向量;
通过所述第一输出层,根据所述每个单词更新后的词向量,输出所述目标文本包含的目标实体。


3.根据权利要求2所述的方法,其特征在于,所述通过所述第一输出层,根据所述每个单词更新后的词向量,输出所述目标文本包含的目标实体,包括:
通过所述第一输出层,根据所述每个单词更新后的词向量,确定所述每个单词所属的类型,其中单词所属的类型包括实体类型和非实体类型;
根据所述每个单词所属的类型,确定所述目标实体。


4.根据权利要求2所述的方法,其特征在于,所述信息提取模型还包括关系提取子模型,所述关系提取子模型包括第二嵌入层、第二编码层和第二输出层;所述通过所述信息提取模型,对所述目标文本进行信息提取,得到所述目标文本包含的目标实体和所述目标实体对应的目标关系,还包括:
通过所述第二嵌入层,获取所述目标文本中的多个单词的词向量,所述多个单词中属于所述目标实体的单词的词向量与其他单词的词向量不同;
通过所述第二编码层,根据每个单词的相邻单词的词向量,对所述每个单词的词向量进行重新编码,得到所述每个单词更新后的词向量;
通过所述第二输出层,根据所述多个单词更新后的词向量,输出所述目标实体对应的目标关系。


5.根据权利要求4所述的方法,其特征在于,所述通过所述第二输出层,根据所述多个单词更新后的词向量,输出所述目标实体对应的目标关系,包括:
对于任两个目标实体,通过所述第二输出层,根据所述任两个目标实体之间的多个单词更新后的词向量,确定每个单词的第一概率和第二概率,所述第一概率表示对应单词是关系中的第一个单词的概率,所述第二概率表示对应单词是关系中的最后一个单词的概率;
将所述多个单词中的任两个单词按照在所述目标文本中的先后顺序进行组合,得到多个单词组合;
获取每个单词组合中,第一个单词的第一概率与第二个单词的第二概率的乘积,作为所述每个单词组合的组合概率;
将组合概率最大的单词组合中的两个单词及所述两个单词之间的单词,确定为所述任两个目标实体的目标关系。


6.根据权利要求1所述的方法,其特征在于,所述获取信息提取模型之前,所述方法包括:
获取所述样本文本,所述样本文本包括至少一个单词;
采用第一提取方式对所述样本文本进行实体提取,得到所述至少一个第一样本实体;
采用第二提取方式对所述样本文本进行实体提取及关系提取,得到所述多个第二样本实体及所述多个第二样本实体中任两个第二样本实体对应的样本关系;
根据所述至少一个第一样本实体、所述多个第二样本实体及所述多个第二样本实体中任两个第二样本实体对应的样本关系,构建所述样本文本对应的实体关系集合;
将所述样本文本作为所述信息提取模型的输入样本,将所述实体关系集合作为所述信息提取模型的输出样本,对所述信息提取模型进行训练。


7.根据权利要求6所述的方法,其特征在于,所述将所述样本文本作为所述信息提取模型的输入,将所述实体关系集合作为所述信息提取模型的输出,对所述信息提取模型进行训练之前,所述方法还包括:
对所述实体关系集合进行去噪处理。


8.根据权利要求7所述的方法,其特征在于,所述对所述实体关系集合进行去噪处理,包括以下至少一项:
将所述实体关系集合中,长度大于第一预设长度的样本实体,及长度大于第二预设长度的样本关系删除;
将所述实体关系集合中,包含的全部单词均属于第一目标词性的样本实体删除;
响应于所述实体关系集合中任两个样本实体在所述样本文本中的出现频次相同,所述任两个样本实体中的一个样本实体包含另一个样本实体,且所述任两个样本实体的差集中存在属于第二目标词性的单词,将所述任...

【专利技术属性】
技术研发人员:邱昭鹏吴贤范伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1