System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于transformer-XL的关键词生成文章方法技术_技高网

一种基于transformer-XL的关键词生成文章方法技术

技术编号:40951113 阅读:2 留言:0更新日期:2024-04-18 20:26
本发明专利技术公开一种基于transformer‑XL的关键词生成文章方法,涉及NLP文本生成领域。该基于transformer‑XL的关键词生成文章方法,主要是包括数据收集、数据处理、网络搭建、模型训练、效果验证几个环节。该基于transformer‑XL的关键词生成文章方法在样本构建上创新思路,通过爬取热门话题构建满足大众用户的话题需求,打破以往只在某一单一领域构建样本的局限,提出一种自动化的验证文本生成模型效果的方法,大大提高了模型验证效率和迭代速度,将transformer‑XL深度模型应用到关键词生成文章任务上,可以快速处理长文本,解决了传统nlp模型训练速度慢、处理文本长度固定的限制。

【技术实现步骤摘要】

本专利技术涉及nlp文本生成,具体为一种基于transformer-xl的关键词生成文章方法。


技术介绍

1、随着互联网数字化的快速发展以及自媒体行业的兴起,越来越多的自媒体从业者以及站长等开始独立经营自己的自媒体号和网站。因此,文章/文案书写、内容生产等是这些用户每天必不可少的工作,但对于大部分用户来说,不管是有写作基础,还是没有写作基础的用户,要想长期保持创作,快速写出非常新颖的内容是有一定难度的。因此市面上渐渐出现了一种帮助在写作上有困难的人们扩展思路的方法,用户只需要输入自己想写的主题关键词,模型就可以帮助用户生成与主题相关的文章,供用户参考使用。

2、目前,市面上已经存在一些基于关键词生成文章的方法,不仅可用方法少,而且系统及模型都存在一定的问题。首先,大部分系统采用的是传统的nlp文本生成方法,生成的文章语序混乱,前后文不相关,与主题偏差大,类似于拼凑的感觉。其次,现有的方法系统覆盖的数据范围都比较偏,比如散文类。这些都不是大众热门的领域,本次专利技术特意学习热门领域的热门文章进行训练学习,覆盖大众常用的主题。最后,现有系统在生成文章后,在模型的评估指标上,没有一个合理可用的评估指标,大多采用人工评估的方法,但人工评估效率低下,并不是评估大量测试数据的首选方法,针对现有技术的不足,本专利技术提供了一种基于transformer-xl的关键词生成文章方法,以解决上述问题。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种基于transformer-xl的关键词生成文章方法,在样本构建上创新思路,通过爬取热门话题构建满足大众用户的话题需求,打破以往只在某一单一领域构建样本的局限,提出一种自动化的验证文本生成模型效果的方法,大大提高了模型验证效率和迭代速度,将transformer-xl深度模型应用到关键词生成文章任务上,可以快速处理长文本,解决了传统nlp模型训练速度慢、处理文本长度固定的限制。

3、(二)技术方案

4、为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于transformer-xl的关键词生成文章方法,所述关键词生成文章方法包括如下步骤:

5、第一步:样本数据收集,样本数据收集包括数据爬取和数据覆盖率验证;

6、第二步:数据抽取,爬取的数据来自各个平台,数据格式不统一,因此对数据进行统一处理;

7、第三步:网络搭建和模型训练;

8、基于transformer-xl进行模型训练,transformer突破以往不能并行训练的障碍,使得训练速度提高;

9、第四步:效果评估,采用自动校验的方式进行验证。

10、优选的,所述数据爬取的数据来源是维基百科、百度百科、头条新闻的数据,我们选取爬虫来代替人工收集数据,提高数据收集效率,爬虫的过程就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应,解析需要的信息,并进行保存。

11、优选的,所述数据覆盖率验证在样本的选取上选取热门大众的样本,采用热门app的热门文章进行同比分析进行抽样,具体步骤包括:

12、s1:爬取微博、小红书同类热门app的热门文章;

13、s2:对于s1爬取的热门文章提取多个关键词,作为集合hot_words;

14、s3:根据hot_words从百度百科、维基百科同类平台爬取相应的文章内容all_contents;

15、s4:组成{key,value}格式的样本集,key为all_contens中的文章,value为对应的关键词。

16、优选的,热门的判定方式是点赞和评论数超过设定阈值数量。

17、优选的,所述数据抽取在进行同一处理时,处理情况如下:

18、s1:提取文章的正文内容,去除多余的作者信息、时间、介绍信息,只保留主要正文内容,作为value用;

19、s2:中文统一采用gbk编码;

20、s3:对key和value进行切词,使用jieba切词;

21、s4:引入预训练词向量vector_word;

22、s5:构建词向量;

23、s6:构建positionembedding向量。

24、优选的,采用transformer-xl版本,解决了以往transformer使用固定长度上下文带来的限制。

25、优选的,所述效果评估过程中,验证步骤如下:

26、s1:将关键词a生成的文章,采用现有的关键词提取方法反向提取文章关键词b;

27、s2:计算关键词a和关键词b的相似性,以判断生成的文章没有主题偏离;

28、s3:对生成的文章随机隐藏word,生成完形填空,采用现有的完形填空补齐方法进行补齐,比较补齐部分与原有覆盖部分的相似性,以此方法来验证模型语句的连贯通顺性。

29、优选的,用户输入文本格式的关键词,将关键词输入系统,经过模型预测,产出与关键词密切相关的文章返回给用户。

30、优选的,所述文章通过ai技术生成,帮助用户生产内容,给用户提供写作思路。

31、优选的,所述positionembedding向量如下:

32、

33、

34、本专利技术公开了一种基于transformer-xl的关键词生成文章方法,其具备的有益效果如下:

35、1、该基于transformer-xl的关键词生成文章方法,将关键词及生成文章的主题扩展到大众热门的常见话题,符合大部分用户的需求。同时本方案专利技术也提出了一种完善的文本生成效果评估方法,大大提高了单纯人力评估的效率,节约成本。本方案专利技术纠正了以往生成方法的语序混乱问题,可以帮助有写作基础的用户拓展写作思路,也可以帮助没有写作基础的用户开启写作之路。本方案自动生成文章方法可以帮助站长优化网站文案,提升网站的运营效率。本方案关键词生成文章在短短几秒钟内就可以生成一篇文章,而人书写的话,至少耗费几个小时甚至几天的时间,大大帮助人们节省了时间成本。

36、2、该基于transformer-xl的关键词生成文章方法,在使用过程中,用户输入文本格式的关键词,关键词输入系统,经过模型预测,产出与关键词密切相关的文章返回给用户。整个流程简单易用,用户只需要提交自己的关键词即可。本专利技术涉及的话题范围广,满足大部分用户的话题需求。打破了以往方法中的样本收集都集中在某一领域的屏障。本方案样本构建是收集的大众热门文章及关键词,满足当前绝大部分用户的需求,跟上时代的热点。

本文档来自技高网...

【技术保护点】

1.一种基于transformer-XL的关键词生成文章方法,其特征在于:所述关键词生成文章方法包括如下步骤:

2.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:所述数据爬取的数据来源是维基百科、百度百科、头条新闻的数据,我们选取爬虫来代替人工收集数据,提高数据收集效率,爬虫的过程就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应,解析需要的信息,并进行保存。

3.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:所述数据覆盖率验证在样本的选取上选取热门大众的样本,采用热门app的热门文章进行同比分析进行抽样,具体步骤包括:

4.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:热门的判定方式是点赞和评论数超过设定阈值数量。

5.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:所述数据抽取在进行同一处理时,处理情况如下:

6.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:采用transformer-XL版本,解决了以往transformer使用固定长度上下文带来的限制。

7.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:所述效果评估过程中,验证步骤如下:

8.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:用户输入文本格式的关键词,将关键词输入系统,经过模型预测,产出与关键词密切相关的文章返回给用户。

9.根据权利要求1所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:所述文章通过AI技术生成,帮助用户生产内容,给用户提供写作思路。

10.根据权利要求5所述的一种基于transformer-XL的关键词生成文章方法,其特征在于:所述positionembedding向量如下:

...

【技术特征摘要】

1.一种基于transformer-xl的关键词生成文章方法,其特征在于:所述关键词生成文章方法包括如下步骤:

2.根据权利要求1所述的一种基于transformer-xl的关键词生成文章方法,其特征在于:所述数据爬取的数据来源是维基百科、百度百科、头条新闻的数据,我们选取爬虫来代替人工收集数据,提高数据收集效率,爬虫的过程就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应,解析需要的信息,并进行保存。

3.根据权利要求1所述的一种基于transformer-xl的关键词生成文章方法,其特征在于:所述数据覆盖率验证在样本的选取上选取热门大众的样本,采用热门app的热门文章进行同比分析进行抽样,具体步骤包括:

4.根据权利要求1所述的一种基于transformer-xl的关键词生成文章方法,其特征在于:热门的判定方式是点赞和评论数超过设定阈值数量。

5.根据权利要求1所述的一种基于transformer-xl的关键词生成文章方法,其特征在于:所述数据抽...

【专利技术属性】
技术研发人员:余文利范顺国侯圣文曹莉娜张舒雨姚凯曹梦佳赵斌
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1