一种基于自然语言处理及图像算法的文章自动生成系统和方法技术方案

技术编号:24939039 阅读:42 留言:0更新日期:2020-07-17 21:09
本发明专利技术公开了一种基于自然语言处理及图像算法的文章自动生成系统和方法,涉及人工智能领域,包括操作终端,输入产品信息和用户信息、输出最终推文;基础标签提取系统,根据输入的产品信息和用户信息,利用BERT预训练模型提取关键字,建立多个标签;内容生成模块,根据标签信息生成相应的若干标题、若干文章内容和若干与文章内容相符的图片;智能筛选模块,包括文章筛选模块和图片筛选模块,对于多个文章内容与相符图片的组合,利用文章筛选模块和图片筛选模块进行筛选,得到符合要求的一组文章内容与相符图片;智能排版模块,对最终选择的文章及相符图片进行排版,得到最终推文。

【技术实现步骤摘要】
一种基于自然语言处理及图像算法的文章自动生成系统和方法
本专利技术涉及人工智能领域,具体为一种基于自然语言处理及图像算法的文章自动生成系统和方法。
技术介绍
目前,企业向用户推荐产品的方式越来越多,为了让打出去的广告能够更吸引用户的关注,最常见的方式就是各大平台的文章推荐。传统通常采用人工方式撰写短文,有以下缺点:一、需要编写的短文数量巨大,且编写过程较为繁琐,导致需要花费大量时间才能完成,使短文生成率低下;二、短文的撰写往往基于企业角度,对用户是吸引力小,导致推荐的短文适用性太差;三、为了吸引更多的关注,让文章中包含贴合主旨的图画也是必不可少的,当前技术中缺乏对图像生成的研究。
技术实现思路
本专利技术的目的在于提供一种基于自然语言处理及图像算法的文章自动生成系统和方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于自然语言处理及图像算法的文章自动生成系统,包括:操作终端,输入产品信息query和用户信息、输出最终推文;基础标签提取系统,根据输入的产品信息和用户信息,利用BERT预训练模型提取关键字,建立多个标签;内容生成模块,包括标题生成模型、短文生成模型和图像生成模型,根据标签信息生成相应的若干标题、若干文章内容Ds和若干与文章内容相符的图片;智能筛选模块,包括文章筛选模块和图片筛选模块,对于多个文章内容与相符图片的组合,利用文章筛选模块和图片筛选模块进行筛选,得到符合要求的一组文章内容与相符图片;智能排版模块,对最终选择的文章及相符图片进行排版,得到最终推文。通过输入简单的产品信息,即可产生推文和相应的图片,节约了大量的人力时间,提高了工作效率。作为本专利技术的一种优选技术方案,所述智能排版模块包括文本数据库,通过深度学习BERT算法训练出自动对文章与图片进行排版的模型。作为本专利技术的一种优选技术方案,所述内容生成模块包括收集的标题数据库、不同类型的短文数据库;通过BERT预训练模型训练分别得到标题生成模型和短文生成模型;通过图像生成模型-StackGAN算法绘制出与短文相符的图片。作为本专利技术的一种优选技术方案,所述图片筛选模块,根据图像生成模型-StackGAN算法计算相符图片与文章内容的契合度,设定阈值,选择契合度最高的相符图片。作为本专利技术的一种优选技术方案,所述文章筛选模块,所述文章筛选模块,通过BERT预训练模型计算产品信息query和每篇文档d之间的相关性分数,query中包括词q1,q2...qn,相关性分数的计算公式为:其中R(qi,d)是查询语句query中每个词qi和文档d的相关度值,Wi是词qi的逆向文档频率IDF,其中,N为文档总数,n(qi)为包含词qi的文档数;其中,k1,k2,b为调节因子,qfi为词qi在查询语句query中的出现频率,fi为qi在文档d中的出现频率,dl为文档d的长度,avgdl为所有文档的平均长度;计算每个文档d与query的相关性分数,设定阈值,将阈值与每个计算完成的相关性分数进行比较,选择相关度适合的相符文章;一种基于自然语言处理及图像算法的文章自动生成方法,包括以下步骤:S1,通过操作终端输入产品信息和用户信息;S2,所述基础标签提取系统对输入的内容提取关键字,建立多个标签;S3,所述内容生成模块根据S2步骤生成的标签信息,生成符合标签的多个标题、多个文章内容以及多个与文章内容相符的图片;S4,通过智能筛选模块筛选出一个短文和契合度最高的相符图片;S5,通过智能排版模块对短文和相符图片进行排版,得到最终的推文,将推文通过操作终端输出。与现有技术相比:本专利技术根据输入的产品信息和用户信息,首先利用自然语言处理算法提取关键词,建立多个标签;之后再根据标签信息生成一段介绍产品且符合用户阅读习惯的短文及标题;然后利用StackGAN算法,针对新生成的短文,绘制出符合文章大意的图像;最后利用相关性分数的计算公式对生成的短文进行筛选,得到更加合适的内容,大大提高了文章的编写效率,本专利技术还利用机器深度学习算法建立智能排版模型,可以对文章与图片进行更合理地排版,增强文章的趣味性,更能吸引用户的关注,产生更好的广告效应,具有良好的应用前景。附图说明图1为本专利技术的流程示意图。图2为本专利技术文章生成模块的结构示意图。图3为本专利技术智能筛选模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种基于自然语言处理及图像算法的文章自动生成系统,包括:用于输入产品信息query和用户信息、输出最终推文的操作终端,为操作人提供操作平台,可以是手机或电脑,输出的文章可以直接进行编辑和分享。基础标签提取系统,根据输入的产品信息和用户信息,利用BERT预训练模型提取关键字,建立多个标签;内容生成模块,包括标题生成模块、短文生成模块和图片生成模块。根据标签信息生成相应的若干标题、若干文章内容和若干与文章内容相符的图片。内容生成模块包括收集的标题数据库、不同类型的短文数据库;通过自然语言处理算法训练得到标题生成模型;通过自然语言处理算法训练得到短文生成模型;通过StackGAN算法和短文生成模型生成的短文绘制出相符图片。智能筛选模块,包括文章筛选模块和图片筛选模块;图片筛选模块,根据图像算法计算相符图片与文章内容的契合度,设定阈值,选择契合度最高的相符图片。文章筛选模块,通过BERT预训练模型计算产品信息query和每篇文档d之间的相关性分数,query中包括词q1,q2...qn,相关性分数的计算公式为:其中R(qi,d)是查询语句query中每个词qi和文档d的相关度值,Wi是词qi的逆向文档频率IDF,其中,N为文档总数,n(qi)为包含词qi的文档数,0.5是调教系数,避免n(qi)=0的情况,log函数是为了让IDF的值受N和n(qi)的影响更加平滑。从公式中显然能看出IDF值的含义:即总文档数越大,包含词qi的文档数越小,则qi的IDF值越大。比如我们有1万篇文档,而单词basketball,KobeBryant几乎只在和体育运动有关的文档中出现,说明这两个词的IDF值比较大,而单词is,are,what几乎在所有文档中都有出现,那么这几个单词的IDF值就非常小。其中其中,k1,k2,b为调节因子,一般取k1=1,k2=1,b=0.75,qfi为词qi在查询语句query中的出现频率,fi为qi在文档d中的出现频率,dl为文档d的长度,avgdl为所有文档的平均长度;式中qfi为词qi在查询语句query中的出现频率,fi为qi在文本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理及图像算法的文章自动生成系统,其特征在于,包括:/n操作终端,输入产品信息query和用户信息、输出最终推文;/n基础标签提取系统,根据输入的产品信息和用户信息,利用BERT预训练模型提取关键字,建立多个标签;/n内容生成模块,包括标题生成模型、短文生成模型和图像生成模型,根据标签信息生成相应的若干标题、若干文章内容d和若干与文章内容相符的图片;智能筛选模块,包括文章筛选模块和图片筛选模块,对于多个文章内容与相符图片的组合,利用文章筛选模块和图片筛选模块进行筛选,得到符合要求的一组文章内容与相符图片;/n智能排版模块,对最终选择的文章及相符图片进行排版,得到最终推文。/n

【技术特征摘要】
1.一种基于自然语言处理及图像算法的文章自动生成系统,其特征在于,包括:
操作终端,输入产品信息query和用户信息、输出最终推文;
基础标签提取系统,根据输入的产品信息和用户信息,利用BERT预训练模型提取关键字,建立多个标签;
内容生成模块,包括标题生成模型、短文生成模型和图像生成模型,根据标签信息生成相应的若干标题、若干文章内容d和若干与文章内容相符的图片;智能筛选模块,包括文章筛选模块和图片筛选模块,对于多个文章内容与相符图片的组合,利用文章筛选模块和图片筛选模块进行筛选,得到符合要求的一组文章内容与相符图片;
智能排版模块,对最终选择的文章及相符图片进行排版,得到最终推文。


2.根据权利要求1所述的一种基于自然语言处理及图像算法的文章自动生成系统,其特征在于:所述智能排版模块包括文本数据库,通过深度学习BERT算法训练出自动对文章与图片进行排版的模型。


3.根据权利要求1所述的一种基于自然语言处理及图像算法的文章自动生成系统,其特征在于:所述内容生成模块包括收集的标题数据库、不同类型的短文数据库;通过BERT预训练模型训练分别得到标题生成模型和短文生成模型;通过图像生成模型-StackGAN算法绘制出与短文相符的图片。


4.根据权利要求3所述的一种基于自然语言处理及图像算法的文章自动生成系统,其特征在于:所述图片筛选模块,根据图像生成模型-StackGAN算法计算相符图片与文章内容的契合度,设定阈值,选择契合度最高的相符图片。

【专利技术属性】
技术研发人员:孟宪坤边树森刘志军
申请(专利权)人:浙江华坤道威数据科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1