文本数据处理方法、装置、设备及介质制造方法及图纸

技术编号:40501052 阅读:20 留言:0更新日期:2024-02-26 19:28
本申请实施例公开了一种文本数据处理方法、装置、设备及介质,应用于数据处理技术领域。其中方法包括:获取基础样本文本数据,并基于基础样本文本数据所包含的基础样本文本词在基础样本文本数据中的文本构成信息,确定基础样本文本词的文本信息量,获取待训练的初始基础处理模型,将基础样本文本数据输入初始基础处理模型,得到基础样本文本词对应的基础预测文本词,基于基础样本文本词和基础样本文本词对应的基础预测文本词之间的文本词差异信息,以及基础样本文本词的文本信息量训练初始基础处理模型,得到目标基础处理模型,并基于目标基础处理模型确定用于文本问答的文本处理模型。采用本申请实施例,可以提高文本问答任务的效果。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种文本数据处理方法、装置、设备及介质


技术介绍

1、文本问答任务是自然语言处理任务中最具有挑战性的任务之一。也就是由用户输入问题,智能生成该问题的答案。在文本问答实现中,需要人工对大量文本数据进行标注,以训练得到文本问答模型。而人工标注主要是依据经验知识进行,这在需要耗费大量工作时间的同时,无法确保样本质量,从而使得文本问答任务的效果低。


技术实现思路

1、本申请实施例提供了一种文本数据处理方法、装置、设备及介质,可以提高文本问答任务的效果。

2、一方面,本申请实施例提供了一种文本数据处理方法,该方法包括:

3、获取基础样本文本数据,并基于基础样本文本数据所包含的基础样本文本词在基础样本文本数据中的文本构成信息,确定基础样本文本词的文本信息量;

4、获取待训练的初始基础处理模型,将基础样本文本数据输入初始基础处理模型,得到基础样本文本词对应的基础预测文本词;

5、基于基础样本文本词和基础样本文本词对应的基础预测文本词之间的文本词差本文档来自技高网...

【技术保护点】

1.一种文本数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述基础样本文本数据所包含的基础样本文本词在所述基础样本文本数据中的文本构成信息,确定所述基础样本文本词的文本信息量,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述基础样本文本数据输入所述初始基础处理模型,得到所述基础样本文本词对应的基础预测文本词,包括:

4.根据权利要求3所述的方法,其特征在于,所述基础样本文本词为多个;

5.根据权利要求1所述的方法,其特征在于,所述基于所述基础样本文本词和所述基础样本文本词对应的基础预...

【技术特征摘要】

1.一种文本数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述基础样本文本数据所包含的基础样本文本词在所述基础样本文本数据中的文本构成信息,确定所述基础样本文本词的文本信息量,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述基础样本文本数据输入所述初始基础处理模型,得到所述基础样本文本词对应的基础预测文本词,包括:

4.根据权利要求3所述的方法,其特征在于,所述基础样本文本词为多个;

5.根据权利要求1所述的方法,其特征在于,所述基于所述基础样本文本词和所述基础样本文本词对应的基础预测文本词之间的文本词差异信息,以及所述基础样本文本词的文本信息量训练所述初始基础处理模型,得到目标基础处理模型,包括:

6.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:汪自力
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1