模型训练方法、文本处理方法、装置及电子设备制造方法及图纸

技术编号：24613489 阅读：17 留言：0更新日期：2020-06-24 01:08

本申请实施例提供了一种模型训练方法、文本处理方法、装置及电子设备。模型训练方法包括：当接收到训练请求时，获取训练文本集；基于训练请求中是否携带有向量化方法的指定信息，确定目标向量化方法；基于目标向量化方法对训练文本集进行向量化处理得到训练向量集；基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。本申请提供的模型训练方法，实现了在训练过程中自动选择向量化方法以及任务处理模型，能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程，为支持多种处理任务以及多种应用场景的文本处理提供了基础。

Model training method, text processing method, device and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、文本处理方法、装置及电子设备
本申请涉及数据处理
，具体而言，本申请涉及一种模型训练方法、文本处理方法、装置及电子设备。
技术介绍
目前，自然语言处理平台主要提供以下三种实现方式：第一种是将各种算法分别封装为子模块提供给算法工程师，算法工程师在使用时可以根据实际需要对算法子模块进行排布，这种方式在实现过程中需要人工进行个性化开发，对用户的要求较高，并且无法实现端对端交付。第二种是针对某种文本处理任务处理过程中的算法进行封装，形成端对端交付，如Facebook的fasttext，但是这种方式只能针对单一的文本处理任务，无法应对多种处理任务并存的情况。第三种是针对某种应用场景所使用的算法进行封装，但是这种方式支持单一的应用场景，无法应对多种应用场景并存的情况。现有的自然语言处理平台所提供的文本处理方式无法应对多种处理任务并存以及多种应用场景并存的情况，无法满足实际的使用需求，亟需一种支持多种处理任务以及多种应用场景的文本处理处理方式。
技术实现思路
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下：第一方面，本申请实施例提供了一种模型训练方法，该方法包括：当接收到训练请求时，获取训练文本集；基于所述训练请求中是否携带有向量化方法的指定信息，确定目标向量化方法；基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集；基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标...

【技术保护点】
1.一种模型训练方法，其特征在于，包括：/n当接收到训练请求时，获取训练文本集；/n基于所述训练请求中是否携带有向量化方法的指定信息，确定目标向量化方法；/n基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集；/n基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。/n

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：
当接收到训练请求时，获取训练文本集；
基于所述训练请求中是否携带有向量化方法的指定信息，确定目标向量化方法；
基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集；
基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。

2.根据权利要求1所述的方法，其特征在于，还包括：
基于所述目标向量化方法以及训练完成的所述目标模型确定业务标识ID，将所述业务ID与训练完成的目标模型关联存储。

3.根据权利要求1所述的方法，其特征在于，所述基于所述训练请求中是否携带有向量化方法的指定信息，确定目标向量化方法，包括：
若所述训练请求中携带有向量化方法的指定信息，则基于所述指定信息对应的向量化方法确定为目标向量化方法；
若所述训练请求中未携带有向量化方法的指定信息，则基于预设规则确定目标向量化方法。

4.根据权利要求1所述的方法，其特征在于，所述任务标识信息包括以下至少一项：
文本分类任务的标识信息；
文本关键词提取任务的标识信息；
文本相似性判定任务的标识信息。

5.根据权利要求4所述的方法，其特征在于，若所述任务标识信息包括文本关键词提取任务的标识信息，所述基于预设规则确定目标向量化方法，包括：
将词频-逆文档频率TF-IDF算法确定为目标向量化方法。

6.根据权利要求4所述的方法，其特征在于，若所述任务标识信息包括文本相似性判定任务的标识信息，所述基于预设规则确定目标向量化方法，包括：
基于所述训练文本集的数据量，以及预设的数据量与向量化方法第一对应关系，确定所述目标向量化方法。

7.根据权利要求4所述的方法，其特征在于，若所述任务标识信息包括文本分类任务的标识信息，所述基于预设规则确定目标向量化方法，包括：
确定所述训练文本集中的文本是否属于商户名称；
若属于，则将商户名称向量化方法确定为目标向量化方法；
若不属于，则基于所述训练文本集的数据量，以及预设的数据量与向量化方法第二对应关系，确定所述目标向量化方法。

8.根据权利要求7所述的方法，其特征在于，当将商户名称向量化方法确定为目标向量化方法时，所述基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集，包括：
确定所述训练文本集的第一相似度矩阵；
对所述相似度矩阵进行聚类，确定中心向量；
确定所述训练文本集与所述中心向量的第二相似度矩阵，并从所述第二相似度矩阵中确定训练向量集。

9.根据权利要求7所述的方法，其特征在于，若所述训练向量集中的词均...

【专利技术属性】
技术研发人员：吴雨霏，
申请(专利权)人：中信百信银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人