【技术实现步骤摘要】
信息抽取方法、装置、计算机存储介质及电子设备
[0001]本申请涉及人工智能
,具体而言,涉及一种信息抽取方法
、
信息抽取装置
、
计算机存储介质及电子设备
。
技术介绍
[0002]信息抽取
(Information Extraction
,简称
IE)
是把文本里包含的信息进行结构化处理,变成表格一样的组织形式
。
抽取系统的输入信息是原始文本,输出的是固定格式的信息点
。
信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务
。
[0003]目前,信息抽取的方法主要有两大类,一类是两段式抽取,一类是联合抽取,其中两段式抽取是构建两套独立模型,先抽取文本中的实体,再判断实体之间的关系,但是两段式抽取存在当抽取实体时存在误差的话,该误差会被传递至后续的实体关系判断中,影响判断结果的问题;联合抽取应用比较广泛且效果较好,但是目前的联合抽取存在关系抽取中样本不均衡< ...
【技术保护点】
【技术特征摘要】
1.
一种信息抽取方法,其特征在于,所述方法包括:获取待识别文本;将所述待识别文本输入至信息抽取模型,通过所述信息抽取模型对所述待识别文本进行实体识别以及关系抽取,以获取所述待识别文本中的实体关系信息;其中,所述信息抽取模型是根据优化损失函数和文本全局标签对待训练信息抽取模型进行训练生成的,所述优化损失函数中对样本不均衡进行了优化并且强化了关系抽取任务
。2.
根据权利要求1所述的方法,其特征在于,所述信息抽取模型包括依次连接的
Bert
子模型
、BILSTM
子模型
、CRF
子模型和关系提取子模型;所述通过所述信息抽取模型对所述待识别文本进行实体识别以及关系抽取,以获取所述待识别文本中的实体关系信息,包括:将所述待识别文本输入至所述
Bert
子模型,通过所述
Bert
子模型对所述待识别文本中的字符进行预编码,以获取与所述字符对应的预编码信息;将所述预编码信息输入至所述
BILSTM
子模型,通过所述
BILSTM
子模型对所述预编码信息进行双向编码,以获取文本编码信息;将所述文本编码信息输入至所述
CRF
子模型,通过所述
CRF
子模型基于所述文本编码信息进行实体识别,以获取与所述待识别文本对应的实体标签;将所述实体标签输入至所述关系提取子模型,通过所述关系提取子模型根据所述实体标签进行实体关系抽取,以获取所述实体关系信息
。3.
根据权利要求1所述的方法,其特征在于,在将所述待识别文本输入至所述信息抽取模型之前,所述方法还包括:获取文本样本,将所述文本样本输入至所述待训练信息抽取模型,通过所述待训练信息抽取模型对所述文本样本进行实体识别和关系抽取,以获取预测实体关系信息;根据与所述文本样本对应的标注实体标签和标注实体关系信息,以及所述预测实体关系信息对所述待训练信息抽取模型进行优化,以获取所述信息抽取模型
。4.
根据权利要求3所述的方法,其特征在于,所述待训练信息抽取模型包括
Bert
子模型
、
待训练
BILSTM
子模型
、
待训练
CRF
子模型和待训练关系提取子模型;所述通过所述待训练信息抽取模型对所述文本样本进行实体识别和关系抽取,以获取预测实体关系信息,包括:将所述文本样本输入至所述
Bert
子模型,通过所述
Bert
子模型对所述文本样本中的字符进行预编码,以获取与所述字符对应的预编码信息;将所述预编码信息输入至所述待训练
BILSTM
子模型,通过所述待训练
BILSTM
子模型对所述预编码信息进行双向编码,以获取文本编码信息;将所述文本编码信息输入至所述待训练
CRF
子模型,通过所述待训练
CRF
子模型基于所述文本编码信息进行实体识别,以获取与所述文本样本对应的实体标签信息;将所述实体标签信息输入至所述待训练关系提取子模型,通过所述待训练关系提取子模型根据所述实体标签信息进行实体关系抽取,以获取所述预测实体关系信息
。5.
根据权利要求4所述的方法,其特征在于,所述
Bert
子模型为预训练子模型;所述将所述文本样本输入至所述
Bert
子模型,通过所述
Bert
子模型对所述文本样本中
的字符进行预编码,以获取与所述字符对应的预编码信息,包括:将所述文本样本中的字符与字向量表中的字符进行比对,以获取与所述文本样本中的字符对应的向量;通过多个
Transformer
层对各所述字符对应的向量进行自注意力编码,以获取与各所述字符对应的所述预编码信息
。6.
根据权利要求4所述的方法,其特征在于,所述通过所述待训练关系提取子模型根据所述实体标签信息进行实体关系抽取,以获取所述预测实体关系信息,包括:根据所述实体标签信息确定所述文本样本中的多个实体,并根据所述实体标签信息和所述文本编码信息确定与各所述实体对应的字符向量;将所述多个实体中的任意两个实体作为目标实体,获取与所述目标实体对应的预设位...
【专利技术属性】
技术研发人员:李俊琪,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。