【技术实现步骤摘要】
样本数据处理的方法、装置、计算机程序产品和存储介质
[0001]本公开涉及人工智能领域和自然语言处理领域,尤其涉及一种样本数据处理的方法、装置、计算机程序产品和存储介质。
技术介绍
[0002]在自然语言处理领域中,序列标注是句子层面的主要任务,用于在给定的文本序列上预测序列中需要作出标注的标签。
[0003]为了提高序列标注模型的性能,需要高质量的样本对序列标注模型进行训练,混淆程度高、信息量大的样本可以在序列标注模型的优化过程中起到更大的作用。因此,如何挑选更有价值的样本是提高序列标注模型性能的重要因素。
[0004]相关技术中,为了选取“最易混淆”或“信息量”最大的样本,通常采用以下几种方法:最小置信度选择方法(Least Confident),可以选取预测概率最大但是“可信度”较低的样本;最小间距样本选择方法(margin sampling),可以选取模型预测最大的两个概率值的差值最小的样本。最小置信度选择方法忽略了概率较低的样本,最小间距样本选择方法同样只考虑了预测概率最大的两个样本,导致样本选取的 ...
【技术保护点】
【技术特征摘要】
1.一种样本数据处理方法,其特征在于,包括:获取待处理的文本集,所述文本集包括一个以上样本文本;确定所述样本文本的句法结构,并确定所述句法结构在所述文本集中的数量占比;将所述样本文本输入预先训练的命名实体识别模型,经所述命名实体识别模型输出所述样本文本中包括的字的边界标签及所述边界标签的置信度;基于所述边界标签确定所述样本文本中包括的实体,并确定所述实体的F值以及类型标签;确定所述实体的类型标签在所述文本集中的数量占比;基于所述实体的类型标签在所述文本集中的数量占比、所述实体的F值以及所述句法结构在所述文本集中的数量占比,确定所述样本文本的支持度;基于所述边界标签的置信度,确定所述样本文本的混淆度;基于所述样本文本的支持度、混淆度、预设的支持度阈值和混淆度阈值,从所述文本集中获取目标样本文本。2.根据权利要求1所述的方法,其特征在于,基于所述边界标签的置信度,确定所述样本文本的混淆度,包括:基于所述边界标签的置信度,确定所述字的信息熵;将所述实体中包括的字的信息熵的均值确定为所述实体的混淆度;将所述样本文本中包括的实体的混淆度的均值确定为所述样本文本的混淆度。3.根据权利要求2所述的方法,其特征在于,所述方法还包括确定所述实体的类型标签的置信度;基于所述边界标签的置信度,确定所述字的信息熵,包括:基于所述字所属的实体的类型标签的置信度调整所述边界标签的置信度,得到调整后的边界标签的置信度;基于所述调整后的边界标签的置信度,确定所述字的信息熵。4.根据权利要求1至3之一所述的方法,其特征在于,所述样本文本的支持度与所述句法结构在所述文本集中的数量占比正相关,所述样本文本的支持度与第一数值正相关,且所述样本文本的支持度与第二数值负相关,其中,所述第一数值为所述样本中包括的各所述实体的类型标签在所述文本集中的数量占比的均值,所述第二数值为所述样本文本中包括的各所述实体的F值的均值。5.根据权利要求1至4之一所述的方法,其特征在于,所述句法结构经由如下步骤确定:对所述...
【专利技术属性】
技术研发人员:李东超,崔鸣,
申请(专利权)人:北京房江湖科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。