【技术实现步骤摘要】
获取NLP分类领域阳性样本方法及相关设备
本申请涉及人工智能
,尤其涉及一种获取NLP分类领域阳性样本方法及相关设备。
技术介绍
近年,随着人工智能技术的发展,自然语言处理(NLP)技术从众多人工智能领域中脱颖而出,成为一个重要的方向。与基于模板的传统语言生成技术相比,NLP具有很多优点,其生成技术最小化了人工的参与程度,可以自动从数据中学习输入到输出的映射。在NLP分类数据标注过程中,需要对阳性样本和阴性样本进行标注,通常不具有业务属性的阴性样本相比具有业务属性的阳性样本来说,阴性样本的数量比阳性样本的数量大很多,因此,这样的样本分布会导致时间大量浪费在阴性样本的标注过程中。现有的主要解决方案是通过提升阳性样本的密度,来提升标注效率,主要的技术方案有三种:正则筛选,基于字典的关键词过滤,基于BM25的全文检索,但是,上述方案在面对一些文本内容超出规则范围,但语义为阳性的样本时,无法检出此类阳性样本,依赖此类数据所建的模型,模型召回率较低。
技术实现思路
本申请实施例的目的在于提出一种获取N ...
【技术保护点】
1.一种获取NLP分类领域阳性样本方法,其特征在于,包括下述步骤:/n获取公开数据预训练模型和专有数据预训练模型;/n拼接公开数据预训练模型和专有数据预训练模型的编码层,得到向量编码模型;/n获取种子样本集和专有数据集中的待识别文本,将待识别文本输入向量编码模型中进行编码,确定种子向量和专有文本向量,并对专有文本向量构建索引,所述种子样本集由阳性样本构成;/n基于所述种子向量在专有数据集中进行相似向量搜索,并通过所述向量索引获取对应的专有文本,以更新所述种子样本集,得到预期数量的阳性样本。/n
【技术特征摘要】
1.一种获取NLP分类领域阳性样本方法,其特征在于,包括下述步骤:
获取公开数据预训练模型和专有数据预训练模型;
拼接公开数据预训练模型和专有数据预训练模型的编码层,得到向量编码模型;
获取种子样本集和专有数据集中的待识别文本,将待识别文本输入向量编码模型中进行编码,确定种子向量和专有文本向量,并对专有文本向量构建索引,所述种子样本集由阳性样本构成;
基于所述种子向量在专有数据集中进行相似向量搜索,并通过所述向量索引获取对应的专有文本,以更新所述种子样本集,得到预期数量的阳性样本。
2.根据权利要求1所述的获取NLP分类领域阳性样本方法,其特征在于,所述获取种子样本和专有文本数据中的待识别文本,对种子样本和专有文本数据进行编码,确定种子向量和专有文本向量,并对专有文本向量构建索引的步骤具体包括:
获取种子样本和专有文本数据中的待识别文本,将待识别文本输入向量编码模型中进行编码,获取种子向量和专有文本向量;
对专有文本向量建立向量索引,并存储专有文本向量与所述专有文本对应关系。
3.根据权利要求2所述的获取NLP分类领域阳性样本方法,其特征在于,所述基于所述种子向量在专有数据集中进行相似向量搜索,并通过所述向量索引获取对应的专有文本,以更新所述种子样本集,得到预期数量的阳性样本的步骤具体包括:
步骤A:在专有数据集中,以种子向量搜索相似向量对应的专有文本,并将搜索到的专有文本作为阳性样本进行标注;
步骤B:将标注后的阳性样本合并到所述种子样本集,作为新的种子样本集;
重复步骤A至步骤B,直到所述新的种子样本集中的阳性样本达到预设数量。
4.根据权利要求3所述的获取NLP分类领域阳性样本方法,其特征在于,所述在专有数据集中,以种子向量搜索相似向量对应的专有文本的步骤具体包括:
依次比对目标向量与所述专有数据集中各个聚类中心的距离,选择出与目标向量最为接近的若干个聚类中心;
获取所述聚类中心所对应聚类中的所有向量,依次计算各向量与目标向量的距离,选择出距离最为接近的若干个相似向量;
通过所述专有文本向量与所述专有文本对应关系,确定所述相似向量对应的专有文本。
5.根据权利要求2所述的获取NLP分类领域阳性样本方法,其特征在于,所述获取种子样本和专有文本数据中的待识别文本,对种子样本和专有文本数据进行编码,获取种子向量和专有文本向量的步骤具体包括:
获取种子样本和专有文本数据中的待识别文本,确定所述待识别文本对应的多个编码种类;
识别待识别文本中的文字,确定所述待识别文本使用的语言;<...
【专利技术属性】
技术研发人员:魏万顺,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。