本申请涉及一种文本生成方法、装置、电子设备及存储介质,该方法包括:获取引导信息;从语料库中选择与所述引导信息相关联的语料作为训练样本;根据所述训练样本对基础语言模型进行训练,得到文本生成模型;将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本。该技术方案无需用户自行创作撰写,缩短内容生成耗时,提高效率;另外,基于引导信息筛选语料库,对训练好的基础语言模型进行二次训练,使得实际用于生成文本的模型与用户所需话题之间的匹配度较高,可以针对不同应用场景生成风格不同的内容,提升了文本内容质量及灵活多样性。
A text generation method, device, electronic equipment and storage medium
【技术实现步骤摘要】
一种文本生成方法、装置、电子设备及存储介质
本申请涉及计算机自然语言处理领域,尤其涉及一种文本生成方法、装置、电子设备及存储介质。
技术介绍
目前,用户需要某种类型的文本时,可以根据自身的文学水平,自行撰写文本;也可以根据需要,从互联上查找可供使用的现成的文本。但是,在实现本申请的过程中,专利技术人发现:用户自行撰写文本耗费时间长,而且需要用户有一定的文学水平,而互联网上查找的文本又难以与用户所需的主题完全匹配。因此,如何提升内容生成的效率和质量,快速地、批量自动生成符合用户需求的文本成为亟待解决的问题。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请实施例提供了一种文本生成方法、装置、电子设备及存储介质。第一方面,本申请实施例提供了一种文本生成方法,包括:获取引导信息;从语料库中选择与所述引导信息相关联的语料作为训练样本;根据所述训练样本对基础语言模型进行训练,得到文本生成模型;将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本。可选的,所述方法还包括:基于所述语料库对预设神经网络模型进行训练,得到所述基础语言模型。可选的,所述将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本,包括:根据所述引导信息由所述文本生成模型生成第一预设个数的待选词,所述第一预设个数大于或等于2个;从所述待选词中随机选择用于生成所述文本的输出词语。可选的,所述从所述待选词中随机选择用于生成所述文本的输出词语,还包括:从所述待选词中随机选择第二预设个数的输出词语,所述第二预设个数小于或等于所述第一预设个数;采用预设分析模型计算每个输出词语对应的权重值;当所述权重值符合预设条件时,选择所述权重值对应输出词语生成所述文本。可选的,所述方法还包括:获取文本类型;所述将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本,包括:根据所述文本类型确定文本长度;将所述引导信息输入所述文本生成模型,生成符合所述文本长度的文本。可选的,当所述文本类型为评论时,所述方法还包括:获取评论对象的历史评论信息;分析所述文本与所述历史评论信息的关联度;根据所述关联度确定所述文本对应的评论类型,所述评论类型包括:对所述评论对象的评论或对所述历史评论信息的回复;根据所述评论类型发布所述文本。可选的,所述引导信息包括以下至少一项:关键词、标题、主题和链接信息。第二方面,本申请实施例提供了一种文本生成装置,包括:获取模块,用于获取引导信息;选择模块,用于从语料库中选择与所述引导信息相关联的语料作为训练样本;训练模块,用于根据所述训练样本对基础语言模型进行训练,得到文本生成模型;生成模块,用于将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本。第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行计算机程序时,实现上述方法步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法步骤。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:基于引导信息选择相应的语料对基础语言模型作进一步训练,得到文本生成模型,再采用该文本生成模型生成引导信息所对应的文本。这样,通过模型基于引导信息自动生成文本,无需用户自行创作撰写,缩短内容生成耗时,提高效率;另外,基于引导信息筛选语料库,对训练好的基础语言模型进行二次训练,使得实际用于生成文本的模型与用户所需话题之间的匹配度较高,可以针对不同应用场景生成风格不同的内容,提升了文本内容质量及灵活多样性。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种文本生成方法的流程图;图2为本申请实施例文本生成模型输出词语的示意图;图3为本申请另一实施例提供的一种文本生成方法的流程图;图4为本申请另一实施例提供的一种文本生成方法的流程图;图5为本申请另一实施例提供的一种文本生成方法的流程图;图6为本申请实施例提供的一种文本生成装置的框图;图7为本申请实施例提供的一种电子设备的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例,采用现有的神经网络模型,如ELMO、OpenAIGPT、BERT及OpenAIGPT-2,基于包含大量语料的语料库,预先训练一个基础语言模型。在自动生成文本过程中,基于获得的引导信息,从语料库中检索关联的语料,对基础语言模型再次进行调整训练,使得基础语言模型更加适合待生成文本所对应的话题。这样,自动生成的文本更符合用户需求。本实施例中,该语料库存放的是在语言的实际使用中真实出现过的语言材料,包括词语、语句、文本等等,该语料库可以包括多个通用语料库,如北京语言大学的BCC汉语语料库、北京大学中国语言学研究中心的CCL语料库、美国当代英语coca语料库、英国国家语料库等等,还可以包括文本发布的内容社区平台所对应的专用语料库,例如,摄影设计平台所对应的语料库、数码社区平台对应的语料库、母婴社区平台对应的语料库、美装服饰社区平台对应的语料库等等。下面首先对本专利技术实施例所提供的一种文本生成方法进行介绍。图1为本申请实施例提供的一种文本生成方法的流程图。如图1所示,该方法包括以下步骤:步骤S11,获取引导信息。其中,该引导信息可以由用户输入或选择,也可以是基于其他系统输出,如产品发布系统输出的产品发布信息等等。引导信息可包括以下至少一项:关键词、标题、主题和链接信息。步骤S12,从语料库中选择与引导信息相关联的语料作为训练样本。其中,基于引导信息在语料库中检索关联的语料,作为后续对基础语言模型进行再次训练的样本。例如,用户输入的主题为xxx化妆品,则首先从该语料库中筛选与xxx化妆品关联的语料作为训练样本。步骤本文档来自技高网...
【技术保护点】
1.一种文本生成方法,其特征在于,包括:/n获取引导信息;/n从语料库中选择与所述引导信息相关联的语料作为训练样本;/n根据所述训练样本对基础语言模型进行训练,得到文本生成模型;/n将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本。/n
【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:
获取引导信息;
从语料库中选择与所述引导信息相关联的语料作为训练样本;
根据所述训练样本对基础语言模型进行训练,得到文本生成模型;
将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述语料库对预设神经网络模型进行训练,得到所述基础语言模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本,包括:
根据所述引导信息由所述文本生成模型生成第一预设个数的待选词,所述第一预设个数大于或等于2个;
从所述待选词中随机选择用于生成所述文本的输出词语。
4.根据权利要求3所述的方法,其特征在于,所述从所述待选词中随机选择用于生成所述文本的输出词语,还包括:
从所述待选词中随机选择第二预设个数的输出词语,所述第二预设个数小于或等于所述第一预设个数;
采用预设分析模型计算每个输出词语对应的权重值;
当所述权重值符合预设条件时,选择所述权重值对应输出词语生成所述文本。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取文本类型;
所述将所述引导信息输入所述文本生成模型,得到所述引导信息对应的文本,包括:
根据所述文本类型确定文本长度;
将所述引...
【专利技术属性】
技术研发人员:何拴绪,刘朝春,曾涛,李雨瑟,张发涛,
申请(专利权)人:京东数字科技控股有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。