一种获取训练数据的方法和装置、模型训练方法和装置制造方法及图纸

技术编号：24206581 阅读：37 留言：0更新日期：2020-05-20 14:55

本发明专利技术实施例公开了一种获取训练数据的方法和装置、模型训练方法和装，模型训练方法包括：获取第一标注数据；其中，第一标注数据包括语料库中已标注的文档；获取所述语料库中未标注的文档中，与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档；分别对每一个获得的文档进行标注得到第二标注数据；将所述第一标注数据和所述第二标注数据作为训练数据进行文本分类模型和命名实体识别模型的训练。本发明专利技术实施例由于采用的增强数据是语料库中的原始文档，能够表达文档原始的语义，从而在节省人工资源的同时提高了模型训练效果。

A method and device for obtaining training data, model training method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种获取训练数据的方法和装置、模型训练方法和装置
本专利技术实施例涉及但不限于风险事件发现技术，尤指一种获取训练数据的方法和装置、模型训练方法和装置。
技术介绍
在一些新闻报道等文档中，会包含关于“某某实体”发生了“某某风险”的信息，如“X公司高管被刑拘”等，我们称其为“风险事件”，其中发生了风险事件的实体为“风险主体”，“风险事件”的类别为“风险类别”。为了发现风险事件，判断风险类别，抽取出风险主体，可以使用基于有监督数据的文本分类方法和命名实体识别方法，首先进行文本分类模型和命名实体识别模型的训练，然后用文本分类模型进行文本分类，用命名实体识别模型进行命名实体的识别。目前的模型训练方法大致包括：首先对语料库中的文档进行标注，标识出每一个文档是否包含风险事件、具体风险类别、涉及该风险事件的风险主体，然后采用标注的文档(即标注数据)作为训练数据分别训练文本分类模型和命名实体识别模型。上述模型训练方法中，由于需要人工对文档进行标注，而语料库中需要进行标注的文档数量很大，人工标注需要耗费很长的时间...

【技术保护点】
1.一种模型训练方法，包括：/n获取第一标注数据；其中，所述第一标注数据包括语料库中已标注的文档；/n获取所述语料库中未标注的文档中，与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档；/n分别对每一个获得的文档进行标注得到第二标注数据；/n将所述第一标注数据和所述第二标注数据作为训练数据进行文本分类模型和命名实体识别模型的训练。/n

【技术特征摘要】
1.一种模型训练方法，包括：
获取第一标注数据；其中，所述第一标注数据包括语料库中已标注的文档；
获取所述语料库中未标注的文档中，与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档；
分别对每一个获得的文档进行标注得到第二标注数据；
将所述第一标注数据和所述第二标注数据作为训练数据进行文本分类模型和命名实体识别模型的训练。

2.根据权利要求1所述的模型训练方法，其特征在于，所述获取语料库中未标注的文档中，与所述第一标注数据中的一个或多个已标注的文档之间的相似度大于或等于预设阈值的文档后，在所述分别对每一个获得的文档进行标注得到第二标注数据之前，该方法还包括：
去除所有所述获得的文档中满足预设条件的文档；
所述分别对每一个获得的文档进行标注得到第二标注数据包括：
分别对所有所述获得的文档中除所述满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据；
其中，所述预设条件包括以下任意一个或多个：所有已标注的文档A中的风险主体均不在所述获得文档中出现；所有所述已标注的文档A中与所述获得的文档之间的相似度最高的已标注文档被标注为无风险事件；其中，所述已标注的文档A与所述获得的文档之间的相似度大于或等于预设阈值。

3.根据权利要求2所述的模型训练方法，其特征在于，其中，所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据包括：
将所述其他文档的风险类别标注为已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险类别，将所述其他文档的风险主体标注为所述已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的风险主体；
其中，所述其他文档与所述已标注的文档B之间的相似度大于或等于预设阈值，且所述其他文档中包含所述已标注的文档B中的风险主体。

4.根据权利要求3所述的模型训练方法，其特征在于，所述分别对所有获得的文档中除满足预设条件的文档之外的每一个其他文档进行标注得到所述第二标注数据还包括：
将所述其他文档的是否包含风险事件标注为与所述已标注的文档B中与所述其他文档之间的相似度最高的已标注的文档的是否包含风险事件相同。

5.一种模型训练装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1～4任一项所述的模型训练方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～4任一项所述的模型训练方法的步骤。

【专利技术属性】
技术研发人员：王道广，伯仲璞，孙靖文，于政，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人