文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:41180320 阅读:17 留言:0更新日期:2024-05-07 22:14
本申请公开了一种文本处理方法、装置、设备及存储介质。所述方法包括:从用于训练文本处理模型的文本集合中获取具有相同文本标签的文本,得到第一子集;基于所述第一子集中文本的句式,确定所述第一子集对应的m个高频句式,m为正整数;基于所述第一子集中文本的句向量,从所述第一子集中选取n个文本,所述n个文本中第一文本与第二文本的相似度大于第一文本与第三文本的相似度,所述第一文本为n个文本中的任一个,所述第二文本为所述n个文本中不包括所述第一文本的其他文本,所述第三文本为所述第一子集中不包括n个文本的其他文本,n为正整数;基于所述m个高频句式和所述n个文本的句向量,预测所述第一子集中的潜在错误文本。

【技术实现步骤摘要】

本申请涉及自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及存储介质


技术介绍

1、目前自然语言处理(natural language processing,nlp)理论研究与模型探索逐渐拓展至更为广阔的、向人类智慧愈发靠近的各个领域,涉及的问题也逐渐从分词、语义分类与匹配、问答等任务延伸,呈现出由易到难的趋势。从nlp模型的训练数据中寻找坏样本(badcase)问题是优化nlp模型的关键。

2、相关技术中,通常采用事后分析策略,在对nlp模型不断迭代训练的过程中,依据nlp模型对训练数据进行处理后的处理结果,来筛选训练数据中的坏样本。这种方式不仅耗时、消耗大量资源,而且无法获知导致坏样本被nlp模型错误处理的原因,进而无法有效有针对性地优化nlp模型。


技术实现思路

1、本申请实施例的目的提供一种文本处理方法、装置、设备及存储介质,用于在模型训练之前快速、准确地预测训练数据中的潜在错误文本。

2、为了实现上述目的,本申请实施例采用下述技术方案:

>3、第一方面,本申本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述m个高频句式和所述n个文本的句向量,预测所述第一子集中的潜在错误文本,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第二子集中文本的句向量和所述n个文本的句向量,从所述第二子集中选取与所述n个文本在语义上不相似的文本,作为所述潜在错误文本,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一子集中文本的句向量,从所述第一子集中选取n个文本,包括:

5.根据权利要求1所述的方法,其特征在于,所述文本的句式为通过如下方式...

【技术特征摘要】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述m个高频句式和所述n个文本的句向量,预测所述第一子集中的潜在错误文本,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第二子集中文本的句向量和所述n个文本的句向量,从所述第二子集中选取与所述n个文本在语义上不相似的文本,作为所述潜在错误文本,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一子集中文本的句向量,从所述第一子集中选取n个文本,包括:

5.根据权利要求1所述的方法,其特征在于,所述文本的句式为通过如下方式确定:

6.根据权利要求1所述的方法,其特征在于,在基于所述m个高频句式和所述n个文本的...

【专利技术属性】
技术研发人员:白安琪
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1