【技术实现步骤摘要】
用于自然语言处理的方法、设备和介质
[0001]本公开的实施例总体涉及自然语言处理领域,并且更具体地涉及一种用于自然语言处理的方法、设备和介质。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)是人工智能(Artificial Intelligence,AI)的一个重要分支,它旨在让计算机能够理解和生成自然语言(Natural Language),即人类使用的语言。自然语言处理在网络聊天(Online Chat)领域有着广泛的应用,例如智能回复、情感分析、对话生成、内容审核等。
[0003]网络聊天是指通过互联网或其他通信网络进行的实时或非实时的文本交流或其他类型交流。网络聊天可以包括但不限于社交媒体、即时通讯、在线论坛、电子邮件等。网络聊天具有以下特点:
[0004]交互性强:网络聊天需要计算机能够及时地响应用户的输入,并给出合适的输出;
[0005]多样性大:网络聊天涉及多种主题、场景和功能,需要计算机能够适应不同的需求和目标;
[000 ...
【技术保护点】
【技术特征摘要】
1.一种用于自然语言处理的方法,其特征在于,包括:针对所获取目标语料执行预处理,从而获取经预处理的语料;将经预处理的语料执行分词化处理,以获取用于生成型预训练变换(GPT)模型的分词样本;将所获取的同一批次的分词样本分配到不同计算设备上执行所述生成型预训练变换模型的训练,从而获取对应于每个进程的梯度计算结果;以及基于所获取的梯度计算结果,将所述生成型预训练变换模型中关于同一分词样本的不同变换(transformer)层分配到不同计算设备上用以执行所述生成型预训练变换模型的训练,从而获取经训练的多层生成型预训练变换模型,以便至少基于经训练的多层生成型预训练变换模型生成目标自然语言序列。2.根据权利要求1所述的方法,其特征在于,至少基于经训练的多层生成型预训练变换模型生成目标自然语言序列包括:使用预定义的分词特征模板,在经训练的多层生成型预训练变换模型中插入受控的标记或类型符号,从而引导经训练的生成型预训练变换模型受控生成目标自然语言序列。3.根据权利要求1所述的方法,其特征在于,针对所获取的目标语料执行预处理包括:在目标平台上获取脱敏后的、预定时间段内的对话数据;对表情、图片、非文本、异常数据执行数据清洗;对一人多句的对话数据执行数据合并;以及按照对话数据的间隔时间,针对经由数据合并的对话数据执行初步数据切分,从而获取经预处理的语料。4.根据权利要求3所述的方法,其特征在于,将经预处理的语料执行分词化处理包括:对经预处理的语料按照生成型预训练变换模型的最大长度执行切分,从而构建多个分词片段;将所构建的分词片段根据会话内容,标记用户的属性特征和会话特征,以生成经标记的数据;将经标记的数据输入到审核模型,并基于预定的过滤条件,清洗满足预定过滤条件的数据,从而获取干净的分词数据;基于主题模型,给干净的分词数据标记主题特征;以及将经标记的主题特征的分词训练数据,转换成内存映射文件(mmap)数据格式,从而降低超大规模数据训练的内存使用。5.根据权利要求1所述的方法,其特征在于,将所获取的同一批次的分词中的不同分词样本分配到不同计算设备上执行生成型预训练变换模型的训练包括:将所获取的同一批次的分词分成多个子批次,每个子批次包含一个或多个分词样本;将每个子批次分配给不同的计算设备,其中每个计算设备包括一个或多个处理器和存储单元,所述处理器是为不同类型或规格的中央处理器、图形处理器、张量处...
【专利技术属性】
技术研发人员:高德政,张璐,陶明,顾宝宝,尹顺顺,
申请(专利权)人:上海任意门科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。