模型训练方法、文本处理方法、装置及电子设备制造方法及图纸

技术编号:24613489 阅读:17 留言:0更新日期:2020-06-24 01:08
本申请实施例提供了一种模型训练方法、文本处理方法、装置及电子设备。模型训练方法包括:当接收到训练请求时,获取训练文本集;基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;基于目标向量化方法对训练文本集进行向量化处理得到训练向量集;基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。本申请提供的模型训练方法,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。

Model training method, text processing method, device and electronic equipment

【技术实现步骤摘要】
模型训练方法、文本处理方法、装置及电子设备
本申请涉及数据处理
,具体而言,本申请涉及一种模型训练方法、文本处理方法、装置及电子设备。
技术介绍
目前,自然语言处理平台主要提供以下三种实现方式:第一种是将各种算法分别封装为子模块提供给算法工程师,算法工程师在使用时可以根据实际需要对算法子模块进行排布,这种方式在实现过程中需要人工进行个性化开发,对用户的要求较高,并且无法实现端对端交付。第二种是针对某种文本处理任务处理过程中的算法进行封装,形成端对端交付,如Facebook的fasttext,但是这种方式只能针对单一的文本处理任务,无法应对多种处理任务并存的情况。第三种是针对某种应用场景所使用的算法进行封装,但是这种方式支持单一的应用场景,无法应对多种应用场景并存的情况。现有的自然语言处理平台所提供的文本处理方式无法应对多种处理任务并存以及多种应用场景并存的情况,无法满足实际的使用需求,亟需一种支持多种处理任务以及多种应用场景的文本处理处理方式。
技术实现思路
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:第一方面,本申请实施例提供了一种模型训练方法,该方法包括:当接收到训练请求时,获取训练文本集;基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。第二方面,本申请实施例提供了一种文本处理方法,该方法包括:当接收到文本处理请求时,获取待处理文本;基于所述文本处理请求携带的任务ID,以及预设的关联关系,确定所述待处理文本的目标向量化方法以及任务处理模型,所述关联关系为任务ID与目标向量化方法以及任务处理模型的关联关系;基于所述目标向量化方法对所述待处理文本进行向量化处理得到待处理向量;基于所述任务处理模型对所述待处理向量进行处理,所述任务处理模型基于本申请的第一方面提供的模型训练方法得到。第三方面,本申请实施例提供了一种模型训练装置,该模型训练装置包括:训练文本集获取模块,用于在接收到训练请求时,获取训练文本集;目标向量化方法确定模块,用于基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;训练向量集确定模块,用于基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;模型训练模块,用于基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。第三方面,本申请实施例提供了一种文本处理装置,该文本处理装置包括:待处理文本获取模块,用于在接收到文本处理请求时,获取待处理文本;关联关系模块,用于基于所述文本处理请求携带的任务标识ID,以及预设的关联关系,确定所述待处理文本的目标向量化方法以及任务处理模型,所述关联关系为任务ID与目标向量化方法以及任务处理模型的关联关系;待处理向量确定模块,用于基于所述目标向量化方法对所述待处理文本进行向量化处理得到待处理向量;处理模块,用于基于所述任务处理模型对所述待处理向量进行处理,所述任务处理模型基于本申请的第一方面提供的模型训练方法得到。第五方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器;存储器,用于存储操作指令;处理器,用于通过调用操作指令,执行如本申请的第一方面所示的模型训练方法或第二方面所示的文本处理方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面所示的模型训练方法或第二方面所示的文本处理方法。本申请实施例提供的技术方案带来的有益效果是:本申请实施例提供的模型训练方法,在接收到训练请求时,基于训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,基于目标向量化方法对训练文本集进行向量化处理得到训练向量集,基于训练向量集对训练请求中携带的任务标识信息对应的目标模型进行训练。基于本方案,通过训练请求中是否携带有向量化方法的指定信息确定目标向量化方法,通过任务标识信息确定目标模型,基于目标向量化方法处理得到的训练向量集对目标模型,实现了在训练过程中自动选择向量化方法以及任务处理模型,能够应对多种处理任务以及多种应用场景下任务处理模型的训练过程,为支持多种处理任务以及多种应用场景的文本处理提供了基础。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。图1为本申请实施例提供的一种模型训练方法的流程示意图;图2为本申请实施例提供的一种文本处理方法的流程示意图;图3为本申请实施例提供的一种模型训练装置的结构示意图;图4为本申请实施例提供的一种文本处理装置的结构示意图;图5为本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。图1示出了本申请实施例提供的一种模型训练方法的流程示意图,如图1所示,该方法主要可以包括:步骤S110:当接收到训练请求时,获取训练文本集。本申请实施例中,可以在执行接入方的文本处理任务之前,接收接入方发出的训练请求,并对模型进行训练。本申请实施例中,训练文本集可以基于训练文档得到,具体而言,训练请求中可以包括训练文档的存储路径,训练文档的文档格式可以包括但是不限于pdf、excel以及doc。针对于不同文档格式的训练文档,可以采用本文档来自技高网
...

【技术保护点】
1.一种模型训练方法,其特征在于,包括:/n当接收到训练请求时,获取训练文本集;/n基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;/n基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;/n基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:
当接收到训练请求时,获取训练文本集;
基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法;
基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集;
基于所述训练向量集对所述训练请求中携带的任务标识信息对应的目标模型进行训练。


2.根据权利要求1所述的方法,其特征在于,还包括:
基于所述目标向量化方法以及训练完成的所述目标模型确定业务标识ID,将所述业务ID与训练完成的目标模型关联存储。


3.根据权利要求1所述的方法,其特征在于,所述基于所述训练请求中是否携带有向量化方法的指定信息,确定目标向量化方法,包括:
若所述训练请求中携带有向量化方法的指定信息,则基于所述指定信息对应的向量化方法确定为目标向量化方法;
若所述训练请求中未携带有向量化方法的指定信息,则基于预设规则确定目标向量化方法。


4.根据权利要求1所述的方法,其特征在于,所述任务标识信息包括以下至少一项:
文本分类任务的标识信息;
文本关键词提取任务的标识信息;
文本相似性判定任务的标识信息。


5.根据权利要求4所述的方法,其特征在于,若所述任务标识信息包括文本关键词提取任务的标识信息,所述基于预设规则确定目标向量化方法,包括:
将词频-逆文档频率TF-IDF算法确定为目标向量化方法。


6.根据权利要求4所述的方法,其特征在于,若所述任务标识信息包括文本相似性判定任务的标识信息,所述基于预设规则确定目标向量化方法,包括:
基于所述训练文本集的数据量,以及预设的数据量与向量化方法第一对应关系,确定所述目标向量化方法。


7.根据权利要求4所述的方法,其特征在于,若所述任务标识信息包括文本分类任务的标识信息,所述基于预设规则确定目标向量化方法,包括:
确定所述训练文本集中的文本是否属于商户名称;
若属于,则将商户名称向量化方法确定为目标向量化方法;
若不属于,则基于所述训练文本集的数据量,以及预设的数据量与向量化方法第二对应关系,确定所述目标向量化方法。


8.根据权利要求7所述的方法,其特征在于,当将商户名称向量化方法确定为目标向量化方法时,所述基于所述目标向量化方法对所述训练文本集进行向量化处理得到训练向量集,包括:
确定所述训练文本集的第一相似度矩阵;
对所述相似度矩阵进行聚类,确定中心向量;
确定所述训练文本集与所述中心向量的第二相似度矩阵,并从所述第二相似度矩阵中确定训练向量集。


9.根据权利要求7所述的方法,其特征在于,若所述训练向量集中的词均...

【专利技术属性】
技术研发人员:吴雨霏
申请(专利权)人:中信百信银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1