【技术实现步骤摘要】
建立信息抽取模型的方法、装置、电子设备和可读存储介质
本申请涉及信息处理
,尤其涉及自然语言处理、深度学习
中的一种建立信息抽取模型的方法、装置、电子设备和可读存储介质。
技术介绍
在各个行业中,普遍存在以自然语言记录的无结构文本,例如新闻、百科、财报等。同时,在各个行业中,也普遍存在从无结构文本中抽取结构化信息的需求,例如从无结构文本中抽取关系信息,关系信息即为文本中的实体对与实体对之间关系的三元组(subject,object,predicate)。由于存在大量的无结构文本,很难直接通过人力进行关系信息的抽取工作,所以相应的以计算机为基础的关系信息抽取软件应运而生。但现有的关系信息抽取软件需要预先制定抽取目标的关系类别,如成立时间、演唱者、专辑等,每种关系信息抽取软件仅能够抽取特定类别的关系信息。若要实现抽取不同类别的关系信息,则需要开发多个关系信息抽取软件,导致关系信息抽取软件的训练步骤较为繁琐、训练效率较低。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种建立信息抽取模型的方法,包括:获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理 ...
【技术保护点】
1.一种建立信息抽取模型的方法,包括:/n获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;/n获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;/n根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;/n使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;/n所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。/n
【技术特征摘要】
1.一种建立信息抽取模型的方法,包括:
获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;
获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;
根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;
使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;
所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。
2.根据权利要求1所述的方法,其中,所述深度学习模型由预训练模型、谓语预测器与宾语预测器构成。
3.根据权利要求2所述的方法,其中,对深度学习模型进行训练包括:
将文本转化为向量序列之后,与文本中主语的位置信息进行拼接,所述文本为所述训练数据中的训练文本或者所述置信数据中的待处理文本;
将拼接结果作为所述预训练模型的输入,得到所述预训练模型输出的语义向量;
将所述语义向量作为所述谓语预测器的输入,将与主语对应的谓语作为所述谓语预测器的输出;
将所述语义向量与所述语义向量中对应所述谓语的向量作为所述宾语预测器的输入,将与主语对应的宾语作为所述宾语预测器的输出。
4.根据权利要求1所述的方法,其中,所述获取多个标注有主语的待处理文本包括:
获取包含关系词的多个文本作为多个待处理文本,并对各待处理文本中的主语进行标注。
5.根据权利要求2所述的方法,其中,所述使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语包括:
针对每一个待处理文本,将待处理文本转化为向量序列之后,与待处理文本中所标注的主语的位置信息进行拼接;
将拼接结果作为所述预训练模型的输入,得到所述预训练模型输出的语义向量;
将所述语义向量作为所述谓语预测器的输入,根据所述谓语预测器的输出得到与主语对应的谓语;
将所述语义向量与所述语义向量中对应所得到的谓语的向量作为所述宾语预测器的输入,根据所述宾语预测器的输出得到与主语对应的宾语。
6.根据权利要求1所述的方法,其中,所述根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据包括:
确定各待处理文本的置信度;
选取置信度超过预设阈值的待处理文本;
将所选取的待处理文本、待处理文本的主语以及与主语对应的谓语和主语,作为所述置信数据。
7.一种建立信息抽取模型的装置,包括:
第一训练单元,用于获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;
预测单元,用于获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;
处理单元,用于根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和...
【专利技术属性】
技术研发人员:贾巍,戴岱,肖欣延,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。