一种获取训练数据的方法和装置、模型训练方法和装置制造方法及图纸

技术编号:24206581 阅读:24 留言:0更新日期:2020-05-20 14:55
本发明专利技术实施例公开了一种获取训练数据的方法和装置、模型训练方法和装,模型训练方法包括:获取第一标注数据;其中,第一标注数据包括语料库中已标注的文档;获取所述语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档;分别对每一个获得的文档进行标注得到第二标注数据;将所述第一标注数据和所述第二标注数据作为训练数据进行文本分类模型和命名实体识别模型的训练。本发明专利技术实施例由于采用的增强数据是语料库中的原始文档,能够表达文档原始的语义,从而在节省人工资源的同时提高了模型训练效果。

A method and device for obtaining training data, model training method and device

【技术实现步骤摘要】
一种获取训练数据的方法和装置、模型训练方法和装置
本专利技术实施例涉及但不限于风险事件发现技术,尤指一种获取训练数据的方法和装置、模型训练方法和装置。
技术介绍
在一些新闻报道等文档中,会包含关于“某某实体”发生了“某某风险”的信息,如“X公司高管被刑拘”等,我们称其为“风险事件”,其中发生了风险事件的实体为“风险主体”,“风险事件”的类别为“风险类别”。为了发现风险事件,判断风险类别,抽取出风险主体,可以使用基于有监督数据的文本分类方法和命名实体识别方法,首先进行文本分类模型和命名实体识别模型的训练,然后用文本分类模型进行文本分类,用命名实体识别模型进行命名实体的识别。目前的模型训练方法大致包括:首先对语料库中的文档进行标注,标识出每一个文档是否包含风险事件、具体风险类别、涉及该风险事件的风险主体,然后采用标注的文档(即标注数据)作为训练数据分别训练文本分类模型和命名实体识别模型。上述模型训练方法中,由于需要人工对文档进行标注,而语料库中需要进行标注的文档数量很大,人工标注需要耗费很长的时间,为了提高标注效率,可以人工仅对语料库中的一部分文档进行标注,如果仅采用一小部分标注的文档进行模型训练,则降低了模型训练的准确率和召回率,即降低了模型训练的效果。为了提高模型训练的效果,可以采用数据增强方法标注语料库中的其他文档。目前的数据增强方法有以下两种:第一种,将已标注的文档翻译成其他语种,然后将得到的文档再翻译回原语种,从而得到含义相似,表达不同的文档作为增强数据加入训练数据中进行文本分类模型和命名实体识别模型的训练。这种方法需要有效果较好的翻译工具,并且无法保持风险主体的表达一致,从而影响模型训练的效果。第二种,采用同义词替换的方法,即通过同义词库,将已标注的文档中的词替换为其对应的同义词,得到替换后的文档作为增强数据加入训练数据中进行文本分类模型和命名实体识别模型的训练。这种方法需要一个准确的同义词库,并且部分情况下,基于同义词库的替换不能表达原始语义,从而影响模型训练的效果。综上所述,目前的模型训练方法的效果较差。
技术实现思路
本专利技术实施例提供了一种获取训练数据的方法和装置、模型训练方法和装置,能够提高模型训练的效果。本专利技术实施例提供了一种模型训练方法,包括:获取第一标注数据;其中,所述第一标注数据包括语料库中已标注的文档;获取所述语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档;分别对每一个获得的文档进行标注得到第二标注数据;将所述第一标注数据和所述第二标注数据作为训练数据进行文本分类模型和命名实体识别模型的训练。2.根据权利要求1所述的模型训练方法,其特征在于,所述获取语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档后,在所述分别对每一个获得的文档进行标注得到第二标注数据之前,该方法还包括:去除所有所述获得的文档中满足预设条件的文档;所述分别对每一个获得的文档进行标注得到第二标注数据包括:分别对所有所述获得的文档中除所述满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据;其中,所述预设条件包括以下任意一个或多个:所有已标注的文档A中的风险主体均不在所述获得文档中出现;所有所述已标注的文档A中与所述获得的文档之间的相似度最高的已标注文档被标注为无风险事件;其中,所述已标注的文档A与所述获得的文档之间的相似度大于或等于预设阈值。3.根据权利要求2所述的模型训练方法,其特征在于,其中,所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据包括:将所述其他文档的风险类别标注为已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险类别,将所述其他文档的风险主体标注为所述已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险主体;其中,所述其他文档与所述已标注的文档B之间的相似度大于或等于预设阈值,且所述其他文档中包含所述已标注的文档B中的风险主体。4.根据权利要求3所述的模型训练方法,其特征在于,所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据还包括:将所述其他文档的是否包含风险事件标注为与所述已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的是否包含风险事件相同。5.一种模型训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1~4任一项所述的模型训练方法。6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~4任一项所述的模型训练方法的步骤。7.一种获取训练数据的方法,包括:获取第一标注数据;其中,所述第一标注数据包括语料库中已标注的文档;获取所述语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档;分别对每一个获得的文档进行标注得到第二标注数据;将所述第一标注数据和所述第二标注数据作为进行文本分类模型和命名实体识别模型的训练数据。8.根据权利要求7所述的方法,其特征在于,所述获取语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档后,在所述分别对每一个获得的文档进行标注得到第二标注数据之前,该方法还包括:去除所有所述获得的文档中满足预设条件的文档;所述分别对每一个获得的文档进行标注得到第二标注数据包括:分别对所有所述获得的文档中除所述满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据;其中,所述预设条件包括以下任意一个或多个:所有已标注的文档A中的风险主体均不在所述获得文档中出现;所有所述已标注的文档A中与所述获得的文档之间的相似度最高的已标注文档被标注为无风险事件;其中,所述已标注的文档A与所述获得的文档之间的相似度大于或等于预设阈值。9.根据权利要求8所述的模型训练方法,其特征在于,其中,所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据包括:将所述其他文档的风险类别标注为已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险类别,将所述其他文档的风险主体标注为所述已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险主体;其中,所述其他文档与所述已标注的文档B之间的相似度大于或等于预设阈值,且所述其他文档中包含所述已标注的文档B中的风险主体。10.根据权利要求9所述的模型训练方法,其特征在于,所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他本文档来自技高网
...

【技术保护点】
1.一种模型训练方法,包括:/n获取第一标注数据;其中,所述第一标注数据包括语料库中已标注的文档;/n获取所述语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档;/n分别对每一个获得的文档进行标注得到第二标注数据;/n将所述第一标注数据和所述第二标注数据作为训练数据进行文本分类模型和命名实体识别模型的训练。/n

【技术特征摘要】
1.一种模型训练方法,包括:
获取第一标注数据;其中,所述第一标注数据包括语料库中已标注的文档;
获取所述语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档;
分别对每一个获得的文档进行标注得到第二标注数据;
将所述第一标注数据和所述第二标注数据作为训练数据进行文本分类模型和命名实体识别模型的训练。


2.根据权利要求1所述的模型训练方法,其特征在于,所述获取语料库中未标注的文档中,与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档后,在所述分别对每一个获得的文档进行标注得到第二标注数据之前,该方法还包括:
去除所有所述获得的文档中满足预设条件的文档;
所述分别对每一个获得的文档进行标注得到第二标注数据包括:
分别对所有所述获得的文档中除所述满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据;
其中,所述预设条件包括以下任意一个或多个:所有已标注的文档A中的风险主体均不在所述获得文档中出现;所有所述已标注的文档A中与所述获得的文档之间的相似度最高的已标注文档被标注为无风险事件;其中,所述已标注的文档A与所述获得的文档之间的相似度大于或等于预设阈值。


3.根据权利要求2所述的模型训练方法,其特征在于,其中,所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据包括:
将所述其他文档的风险类别标注为已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险类别,将所述其他文档的风险主体标注为所述已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险主体;
其中,所述其他文档与所述已标注的文档B之间的相似度大于或等于预设阈值,且所述其他文档中包含所述已标注的文档B中的风险主体。


4.根据权利要求3所述的模型训练方法,其特征在于,所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据还包括:
将所述其他文档的是否包含风险事件标注为与所述已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的是否包含风险事件相同。


5.一种模型训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1~4任一项所述的模型训练方法。


6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~4任一项所述的模型训练方法的步骤。

【专利技术属性】
技术研发人员:王道广伯仲璞孙靖文于政
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1