【技术实现步骤摘要】
一种文本生成方法和装置
本专利技术涉及计算机
,尤其涉及一种文本生成方法和装置。
技术介绍
内容营销通过文本、图片等数据向用户传递有价值信息,来实现营销目的。不同的场景,对文本内容的要求都不同,例如新颖性、长度等,举例而言,移动客户端会对内容字数有严格要求,如果超出范围,会影响UI(用户界面)设计的美观和用户体验。目前的文本生成技术主要是无控制机制的生成方法以及简单的文本续写,无控制机制的生成方法所生成文本的文本长度、新颖性有一定的随机性,满足不了实际上线需求,会被后续模块过滤掉,而简单的文本续写无法生成不同风格、不同长度、不同文章类型的文本。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:生成文本的文本长度、新颖性有一定随机性,满足不了实际上线需求,且无法基于不同场景对内容输出的要求而生成不同风格、不同长度、不同文章类型的文本。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本生成方法和装置,能够解决生成文本的文本长度、新颖性有一定随机性的问题,使得生成的文本 ...
【技术保护点】
1.一种文本生成方法,其特征在于,包括:/n获取收集的原始文章语料中每篇文章样本的内容和元数据;/n根据所述文章样本的内容生成对应所述文章样本的关键词序列和标签序列,并根据所述文章样本的元数据,按照预设规则生成对应所述文章样本的控制信号,根据对应所述文章样本的关键词序列、标签序列、控制信号生成训练样本,训练可控文本生成模型;/n根据输入的目标元数据,按照所述预设规则生成目标控制信号,根据所述目标控制信号、输入的目标关键词序列,利用经过训练的所述可控文本生成模型,生成与所述目标关键词序列对应的文本。/n
【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:
获取收集的原始文章语料中每篇文章样本的内容和元数据;
根据所述文章样本的内容生成对应所述文章样本的关键词序列和标签序列,并根据所述文章样本的元数据,按照预设规则生成对应所述文章样本的控制信号,根据对应所述文章样本的关键词序列、标签序列、控制信号生成训练样本,训练可控文本生成模型;
根据输入的目标元数据,按照所述预设规则生成目标控制信号,根据所述目标控制信号、输入的目标关键词序列,利用经过训练的所述可控文本生成模型,生成与所述目标关键词序列对应的文本。
2.根据权利要求1所述的方法,其特征在于,根据所述文章样本的内容生成对应所述文章样本的关键词序列的步骤,包括:
利用第一分词算法对所述文章样本的内容进行分词,得到分词序列;
从所述分词序列中抽取出属于预设词性的分词,并基于抽取出的分词,按照所述抽取出的分词在所述分词序列中的原有顺序,生成候选关键词序列;
将所述候选关键词序列中不符合预设条件的分词删除,得到所述关键词序列;
根据所述文章样本的内容生成对应所述文章样本的标签序列的步骤,包括:
利用第二分词算法对所述文章样本的内容进行分词,得到所述标签序列。
3.根据权利要求2所述的方法,其特征在于,所述将所述候选关键词序列中不符合预设条件的分词删除,包括:
基于所述原始文章语料统计所述候选关键词序列中各分词的词频,将所述候选关键词序列中所述词频小于预设阈值的分词,以及在预设黑名单中的分词删除。
4.根据权利要求1所述的方法,其特征在于,根据第一元数据,按照如下的所述预设规则生成第一控制信号:
在所述第一元数据为数值形式的情况下,以其数值作为所述第一控制信号;
在所述第一元数据为非数值形式的情况下,按照转换规则将其转换为有限数值区间内的离散数值,以作为所述第一控制信号;
其中,所述第一元数据为所述文章样本的元数据、所述第一控制信号为对应所述文章样本的控制信号,或者,所述第一元数据为所述目标元数据、所述第一控制信号为所述目标控制信号。
5.根据权利要求1所述的方法,其特征在于,所述文章样本的元数据和所述输入的目标元数据为作者、文章类目、文章类型、文章长度中的一种或多种,且所述文章样本的元数据和所述输入的目标元数据属于相同的一种或多种类型元数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标控制信号、输入的目标关键词序列,利用经过训练的所述...
【专利技术属性】
技术研发人员:王刚,佘志东,张涛,张亮,饶正锋,
申请(专利权)人:北京沃东天骏信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。