一种基于内容分类的营销文本短句生成方法技术

技术编号:28130832 阅读:14 留言:0更新日期:2021-04-19 11:52
本发明专利技术的一种基于内容分类的营销文本短句生成方法,包括如下步骤:S100、获取关键字,基于给定的句子内容提取客群、产品名、产品特性及其它实体关键字;S200、预处理,对步骤S100获取的实体关键字进行拼接处理;S300、初始化;S400、建模,建立自回归生成式预训练语言模型;S500、模型训练;S600、文本短句生成,通过自回归生成式预训练语言模型进行对应客群产品的营销文本短句生成,通过对给定营销句子内容进行提取,获取实体关键字,建立自回归生成式预训练语言模型并对模型训练,使得训练好的模型可以根据实体关键字进行对应客群产品的营销文本短句生成,相对于传统人工进行营销文本短句的撰写,更加方便迅速。更加方便迅速。更加方便迅速。

【技术实现步骤摘要】
一种基于内容分类的营销文本短句生成方法


[0001]本专利技术属于文本处理
,具体来说是一种基于内容分类的营销文本短句生成方法。

技术介绍

[0002]目前传统人工方式撰写营销文本,耗时耗力、效率低下;同时营销文本还需要针对不同客群和产品进行扩写、风格迁移,人工撰写方式存在创作瓶颈。因此,亟需一种可以快速自动根据营销对象生成相匹配的营销文本和营销短句的方法。

技术实现思路

[0003]1.专利技术要解决的技术问题
[0004]本专利技术的目的在于解决现有的营销文本和营销短句需要人为撰写,效率低下的问题。
[0005]2.技术方案
[0006]为达到上述目的,本专利技术提供的技术方案为:
[0007]本专利技术的一种基于内容分类的营销文本短句生成方法,具体包括如下步骤:
[0008]S100、获取关键字,基于给定的句子内容使用NER技术,提取客群、产品名、产品特性及其它实体关键字;
[0009]S200、预处理,对步骤S100获取的实体关键字进行拼接处理;
[0010]S300、初始化,使用BertTokenizer对拼接后内容进行tokenizer初始化;
[0011]S400、建模,建立自回归生成式预训练语言模型;
[0012]S500、模型训练,将步骤S300中的tokenizer初始化后的embedding输送到自回归生成式预训练语言模型;
[0013]S600、文本短句生成,通过自回归生成式预训练语言模型进行对应客群产品的营销文本短句生成。
[0014]优选的,所述步骤S100还包括采用bert+crf模型结构,对给定句子内容进行命名实体识别,提取出客群、产品名、产品特性及其它相关实体关键字。
[0015]优选的,所述步骤S200对关键字进行拼接处理具体为将客群、产品名、产品特性及其它相关实体关键字全部拼接成一段文本。
[0016]优选的,所述步骤S300拼接后内容进行tokenizer初始化具体为对拼接后内容进行中文分词和词语向量化处理。
[0017]优选的,所述步骤S500中的模型训练包括如下步骤:
[0018]S510、大规模营销文本清洗转换处理;
[0019]S520、基于清洗转换处理后大规模营销文本,进行营销领域的自回归生成式预训练语言模型;
[0020]S530、营销文本短句生成任务语料预处理;
[0021]S540、基于营销领域的自回归生成式预训练语言模型,进行营销文本短句生成任务微调训练。
[0022]优选的,所述步骤S510的清洗具体为删除无意义的标点符号并对长文本进行段落切分。
[0023]一种基于内容分类的营销文本短句生成系统,用于实现上述所述的方法,包括
[0024]数据输入模块,所述数据输入模块用于向系统输入相关的句子内容;
[0025]关键字获取模块,所述关键字获取模块用于从输入相关的句子内容中提取客群、产品名、产品特性及其它实体关键字;
[0026]预处理模块,所述预处理模块用于对关键字获取模块获取的实体关键字进行拼接处理;
[0027]建模模块,所述建模模块用于建立自回归生成式预训练语言模型;
[0028]模型训练模块,所述模型训练模块用于获取预处理模块处理后的数据并进行初始化后输送到自回归生成式预训练语言模型进行训练;
[0029]生成模块,所述生成模块用于根据训练好的模型进行对应客群产品的营销文本短句生成;
[0030]数据输出模块,所述数据输出模块用于将生成模块生成的营销文本短句输出。
[0031]优选的,所述模型训练模块还包括大规模营销文本清洗转换处理;基于清洗转换处理后大规模营销文本,进行营销领域的自回归生成式预训练语言模型;营销文本短句生成任务语料预处理;基于营销领域的自回归生成式预训练语言模型,进行营销文本短句生成任务微调训练。
[0032]3.有益效果
[0033]采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:
[0034]本专利技术的一种基于内容分类的营销文本短句生成方法,具体包括如下步骤:S100、获取关键字,基于给定的句子内容使用NER技术,提取客群、产品名、产品特性及其它实体关键字;S200、预处理,对步骤S100获取的实体关键字进行拼接处理;S300、初始化,使用BertTokenizer对拼接后内容进行tokenizer初始化;S400、建模,建立自回归生成式预训练语言模型;S500、模型训练,将步骤S300中的tokenizer初始化后的embedding输送到自回归生成式预训练语言模型;S600、文本短句生成,通过自回归生成式预训练语言模型进行对应客群产品的营销文本短句生成,通过对给定营销句子内容进行提取,获取实体关键字,建立自回归生成式预训练语言模型并对模型训练,使得训练好的模型可以根据实体关键字进行对应客群产品的营销文本短句生成,相对于传统的人工去进行营销文本短句的撰写,更加方便迅速。
附图说明
[0035]图1为本专利技术的一种基于内容分类的营销文本短句生成系统的结构示意图;
[0036]图2为本专利技术的一种基于内容分类的营销文本短句生成方法的流程图。
[0037]示意图中的标号说明:
[0038]100、数据输入模块;200、关键字获取模块;300、预处理模块;400、建模模块;500、模型训练模块;600、生成模块;700、数据输出模块。
具体实施方式
[0039]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述,附图中给出了本专利技术的若干实施例,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0040]需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0041]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同;本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0042]实施例1
[0043]参照图1、图2,本实施例的一种基于内容分类的营销文本短句生成方法,具体包括如下步骤:
[0044]S100、获取关键字,基于给定的句子内容使用NER技术,提取客群、产品名、产品特性及其它实体关键字;
[0045]S200、预处理,对步骤S100获取的实体关键字进行拼接处理;
[0046]S300、初始化,使用BertTokeniz本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内容分类的营销文本短句生成方法,其特征在于,具体包括如下步骤:S100、获取关键字,基于给定的句子内容使用NER技术,提取客群、产品名、产品特性及其它实体关键字;S200、预处理,对步骤S100获取的实体关键字进行拼接处理;S300、初始化,使用BertTokenizer对拼接后内容进行tokenizer初始化;S400、建模,建立自回归生成式预训练语言模型;S500、模型训练,将步骤S300中的tokenizer初始化后的embedding输送到自回归生成式预训练语言模型;S600、文本短句生成,通过自回归生成式预训练语言模型进行对应客群产品的营销文本短句生成。2.根据权利要求1所述的一种基于内容分类的营销文本短句生成方法,其特征在于:所述步骤S100还包括采用bert+crf模型结构,对给定句子内容进行命名实体识别,提取出客群、产品名、产品特性及其它相关实体关键字。3.根据权利要求1所述的一种基于内容分类的营销文本短句生成方法,其特征在于:所述步骤S200对关键字进行拼接处理具体为将客群、产品名、产品特性及其它相关实体关键字全部拼接成一段文本。4.根据权利要求1所述的一种基于内容分类的营销文本短句生成方法,其特征在于:所述步骤S300拼接后内容进行tokenizer初始化具体为对拼接后内容进行中文分词和词语向量化处理。5.根据权利要求1所述的一种基于内容分类的营销文本短句生成方法,其特征在于,所述步骤S500中的模型训练包括如下步骤:S510、大规模营销文本清洗转换处理;S520、基于清洗转换处理后大规模营销文本,进行营销领域的自回归生成式预训练语言模型;S530、营销文本短句生成任务语料预处理;S5...

【专利技术属性】
技术研发人员:金鑫李鹏辉
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1