【技术实现步骤摘要】
本申请涉及自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及存储介质。
技术介绍
1、目前自然语言处理(natural language processing,nlp)理论研究与模型探索逐渐拓展至更为广阔的、向人类智慧愈发靠近的各个领域,涉及的问题也逐渐从分词、语义分类与匹配、问答等任务延伸,呈现出由易到难的趋势。从nlp模型的训练数据中寻找坏样本(badcase)问题是优化nlp模型的关键。
2、相关技术中,通常采用事后分析策略,在对nlp模型不断迭代训练的过程中,依据nlp模型对训练数据进行处理后的处理结果,来筛选训练数据中的坏样本。这种方式不仅耗时、消耗大量资源,而且无法获知导致坏样本被nlp模型错误处理的原因,进而无法有效有针对性地优化nlp模型。
技术实现思路
1、本申请实施例的目的提供一种文本处理方法、装置、设备及存储介质,用于在模型训练之前快速、准确地预测训练数据中的潜在错误文本。
2、为了实现上述目的,本申请实施例采用下述技术方案:
【技术保护点】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述m个高频句式和所述n个文本的句向量,预测所述第一子集中的潜在错误文本,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述第二子集中文本的句向量和所述n个文本的句向量,从所述第二子集中选取与所述n个文本在语义上不相似的文本,作为所述潜在错误文本,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一子集中文本的句向量,从所述第一子集中选取n个文本,包括:
5.根据权利要求1所述的方法,其特征在于,所述文本
...【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述m个高频句式和所述n个文本的句向量,预测所述第一子集中的潜在错误文本,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述第二子集中文本的句向量和所述n个文本的句向量,从所述第二子集中选取与所述n个文本在语义上不相似的文本,作为所述潜在错误文本,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一子集中文本的句向量,从所述第一子集中选取n个文本,包括:
5.根据权利要求1所述的方法,其特征在于,所述文本的句式为通过如下方式确定:
6.根据权利要求1所述的方法,其特征在于,在基于所述m个高频句式和所述n个文本的...
【专利技术属性】
技术研发人员:白安琪,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。