【技术实现步骤摘要】
训练信息抽取模型的方法、信息抽取方法及对应装置
[0001]本申请涉及人工智能
,特别是涉及一种训练信息抽取模型的方法、信息抽取方法及对应装置。
技术介绍
[0002]信息抽取(IE,Information Extraction)最初指的是从文本中抽取出特定类别的信息,从而将海量内容自动分类、提取和重构,例如命名实体识别、实体关系抽取、事件抽取等。随着人工智能技术的不断发展,信息抽取技术也逐渐扩展到对图片、视频等中抽取出特定类别的信息,例如目标检测、目标间关系的识别等。
[0003]信息抽取模型的构建依赖于训练样本集,训练样本集中包含了大量标注了信息类别标签的样本。但在现实场景下,训练样本集往往存在严重的标注不完全的问题,即有些样本中原本应该被标注信息类别标签的元素没有被正确标注,包括未被标注或者标注错误,那么这些元素在训练过程中反而成为了该信息类别标签的负例,在模型训练过程中带来大量的噪音,从而影响了信息抽取模型的效果。
技术实现思路
[0004]有鉴于此,本申请提供了一种训练信息抽取模型的方 ...
【技术保护点】
【技术特征摘要】
1.一种训练信息抽取模型的方法,其特征在于,所述方法包括:获取训练样本集,所述训练样本集中存在部分样本的元素的信息类别标签未被正确标注;利用所述训练样本集训练信息抽取模型;从所述训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定;利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为所述采样的样本标注信息类别标签;将标注信息类别标签后的所述采样的样本放回所述训练样本集,转至利用所述训练样本集训练信息抽取模型的步骤。2.根据权利要求1所述的方法,其特征在于,类别标签对应的样本的采样率与当前训练得到的信息抽取模型在对应类别上的准确率正相关,且与当前训练得到的信息抽取模型在对应类别上的召回率负相关。3.根据权利要求2所述的方法,其特征在于,所述各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定包括:对于类别i,利用μ
i
=[P
i
*(1
‑
R
i
)]
β
确定该类别标签对应的样本的采样率μ
i
,其中P
i
为当前训练得到的信息抽取模型在类别i上的准确率,R
i
为当前训练得到的信息抽取模型在类别i上的召回率,β为超参数。4.根据权利要求1所述的方法,其特征在于,利用所述训练样本集训练信息抽取模型包括:将所述训练样本集中的样本输入信息抽取模型,由所述信息抽取模型输出所述样本中元素的信息类别;在每一轮迭代中利用损失函数的取值,更新所述信息抽取模型的模型参数,直至满足预设的训练结束条件,其中所述损失函数依据训练目标预先构建,所述训练目标包括:最小化信息抽取模型输出的样本中元素的信息类别与对应信息类别标签之间的差异。5.根据权利要求1所述的方法,其特征在于,在从所述训练样本集中采样样本之前,还包括:获取当前训练得到的信息抽取模型的F1指标值;若所述F1指标值满足预设的指标条件,则将当前训练得到的信息抽取模型作为最终的信息抽取模型;否则,继续执行从所述训练样本集中采样预设数量的样本的步骤。6.根据权利要求1或5所述的方法,其特征在于,在从所述训练样本集中采样预设数量的样本之前,还包括:获取验证样本集,所述验证样本集中样本的元素均被标注正确的信息类别标签;利用当前训练得到的信息抽取模型对验证样本集中的样本进行信...
【专利技术属性】
技术研发人员:谭清宇,许璐,邴立东,黄伟道,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。