System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于信息链和动态核采样的评论生成方法及系统技术方案_技高网

一种基于信息链和动态核采样的评论生成方法及系统技术方案

技术编号:41143843 阅读:4 留言:0更新日期:2024-04-30 18:12
本发明专利技术公开了一种基于信息链和动态核采样的评论生成方法及系统,从微博数据集中提取关键词,并将多个不同的关键词组合为关键词链;将关键词链和微博话题进行拼接,构建得到微博信息链;将微博信息链输入预训练语言模型GPT‑2中,生成微博评论;采用动态核采样平衡评论微博评论的忠实度和多样性,输出流畅且多样的微博评论。实现评论自动化生成,平衡评论生成的忠实度和流利度。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体涉及一种基于信息链和动态核采样的评论生成方法及系统


技术介绍

1、在社交网络和在线评论平台上,用户经常需要参与评论和讨论,并表达自己的观点和想法。然而,撰写合适和高质量的评论需要时间和思考,对于用户来说可能是一项繁琐的任务。大多数用户生成的评论通常存在质量参差不齐的问题,其中包括重复、不相关或负面信息。此外,现有的自动生成评论方法在多样性和连贯性方面存在一定的局限性,无法充分满足用户个性化需求。因此,开发一种自动生成个性化、多样化的评论生成方法对于提高用户体验、辅助决策以及维护社交媒体环境具有重要意义。

2、传统的评论生成方法主要基于模板或固定规则,缺乏灵活性和个性化。这些方法通常无法适应不同领域和主题的评论需求,而且难以生成具有多样性的评论内容。此外,这些方法无法充分利用大量的用户生成评论数据,无法捕捉到信息之间的关联性和语境信息,导致生成的评论忠实度和流利度低。

3、微博评论生成任务主要存在两个难点,具体如下:

4、第一,微博文本长度过长,导致难以捕捉到文本中关键的信息;

5、第二,微博文本中包含了大量与话题无关的信息,导致生成评论的流畅性不足。

6、因此,如何根据微博内容生成真实且可信的评论是当前研究的一个关键方向。


技术实现思路

1、本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于信息链和动态核采样的评论生成方法及系统,用于解决微博文本过长模型难以捕获重要信息以及生成的评论忠实度和流利度难以平衡的技术问题,实现评论自动化生成,平衡评论生成的忠实度和流利度。

2、本专利技术采用以下技术方案:

3、一种基于信息链和动态核采样的评论生成方法,包括以下步骤:

4、从微博数据集中提取关键词,并将多个不同的关键词组合为关键词链;

5、将关键词链和微博话题进行拼接,构建得到微博信息链;

6、将微博信息链输入预训练语言模型gpt-2中,生成微博评论;

7、采用动态核采样平衡评论微博评论的忠实度和多样性,输出流畅且多样的微博评论。

8、优选地,清洗包括去除重复数据、处理缺失值、去除html标签、过滤特殊符号或表情符操作;预处理包括分词、去除停用词、词干化或词形归一化操作。

9、优选地,使用tf-idf提取微博文本中的关键词,并根据与微博文本的相关性对关键词进行排序和筛选,具体如下:

10、对微博文本进行分词处理,将其转化为词语的序列;

11、计算每个词语在当前微博文本中的tf-idf值,并设置为关键词;

12、动态设置关键词的数量,将关键词按照文本中出现的顺序组合形成一个有序的链条,使用|对关键词进行拼接,构建关键词链。

13、更优选地,tf-idf值具体为:

14、

15、其中,a是某文档中某词或字出现的次数,b为该文档的总字数或总词数,c为全部文档的个数,d为包含该词或字的文档的篇数。

16、更优选地,关键词链如下:

17、keyword chain=keyword 1+′|′+keyword 2+′|′+…

18、其中,keyword chain为关键词链,keyword i为关键词,i=1,2,...。

19、优选地,构建微博信息链具体为:

20、统计清洗过的微博数据集的分布,包括微博话题、微博文本和微博评论的最大长度、最小长度、中位数和平均值;

21、删除不含主题、文本和评论的数据;

22、使用微博话题和关键词链进行拼接,构建微博信息链。

23、优选地,生成微博评论具体为:

24、向预训练的gpt-2模型输入微博信息链,利用自注意力机制对关键信息进行编码和建模,采用自回归的方式,根据已生成的文本逐步预测下一个词的概率分布,并选择概率最高的词作为当前生成的词,通过迭代生成的过程,gpt-2模型生成符合上下文和话题要求的微博评论。

25、优选地,采用动态核采样平衡评论步骤s4得到的微博评论的忠实度和多样性具体为:

26、动态核采样是在gpt2模型输出后,设置一个判别器;如果不满足判别器多样性的要求,调整核采样参数p值;如果满足判别器的要求,将相应评论进行输出;

27、采用过度生成策略,保存历史生成的评论,如果与历史生成的评论相同,则丢弃该评论,同时增加内核采样的p值。

28、更优选地,判别器部分使用惩罚抽样,通过扣掉之前时刻生成的tokens的得分来重复处罚,下一时刻tokens的概率分布pi如下:

29、

30、l(c)=θ

31、其中,g为之前时刻生成的tokens集合,l(·)为密度函数,θ用于平衡重复性和真实性的生成。

32、第二方面,本专利技术实施例提供了一种基于信息链和动态核采样的评论生成系统,包括:

33、提取模块,从微博数据集中提取关键词,并将多个不同的关键词组合为关键词链;

34、拼接模块,将提取模块得到的关键词链和微博话题进行拼接,构建得到微博信息链;

35、预训练模块,将拼接模块得到的微博信息链输入预训练语言模型gpt-2中,生成微博评论;

36、输出模块,采用动态核采样平衡评论预训练模块得到的微博评论的忠实度和多样性,输出流畅且多样的微博评论。

37、第三方面,一种芯片,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于信息链和动态核采样的评论生成方法的步骤。

38、第四方面,本专利技术实施例提供了一种电子设备,包括计算机程序,所述计算机程序被电子设备执行时实现上述基于信息链和动态核采样的评论生成方法的步骤。

39、与现有技术相比,本专利技术至少具有以下有益效果:

40、一种基于信息链和动态核采样的评论生成方法,首先对微博数据进行清洗和预处理;然后通过tf-idf获取微博文本中的关键词,并将多个关键词构建为关键词链;之后将关键词链和微博话题结合,构建成微博信息链;最后利用gpt-2模型生成评论,在这一过程中,采用动态核采样的方法有效平衡评论生成的忠实度和流利度。本专利技术方法生成的评论与话题高度相关,同时生成的内容丰富度和连贯性高。

41、进一步的,对舆情文本数据进行清洗,并进行预处理,统一输入模型的字符格式,减少不相关信息的干扰,提升模型生成性能。

42、进一步的,对微博文本进行分词处理,使用tf-idf提取关键词,并按照与微博文本相关性对关键词进行排序和筛选设置,可以减少微博文本中不相关的信息,使模型重点关注微博的重要信息。

43、进一步的,微博话题包含微博事件主要信息,关键词链则包含微博文本的重要信息,基于微博话题与关键词链构建微博信息本文档来自技高网...

【技术保护点】

1.一种基于信息链和动态核采样的评论生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于信息链和动态核采样的评论生成方法,其特征在于,清洗包括去除重复数据、处理缺失值、去除HTML标签、过滤特殊符号或表情符操作;预处理包括分词、去除停用词、词干化或词形归一化操作。

3.根据权利要求1所述的基于信息链和动态核采样的评论生成方法,其特征在于,使用TF-IDF提取微博文本中的关键词,并根据与微博文本的相关性对关键词进行排序和筛选,具体如下:

4.根据权利要求3所述的基于信息链和动态核采样的评论生成方法,其特征在于,TF-IDF值具体为:

5.根据权利要求3所述的基于信息链和动态核采样的评论生成方法,其特征在于,关键词链如下:

6.根据权利要求1所述的基于信息链和动态核采样的评论生成方法,其特征在于,构建微博信息链具体为:

7.根据权利要求1所述的基于信息链和动态核采样的评论生成方法,其特征在于,生成微博评论具体为:

8.根据权利要求1所述的基于信息链和动态核采样的评论生成方法,其特征在于,采用动态核采样平衡评论步骤S4得到的微博评论的忠实度和多样性具体为:

9.根据权利要求8所述的基于信息链和动态核采样的评论生成方法,其特征在于,判别器部分使用惩罚抽样,通过扣掉之前时刻生成的tokens的得分来重复处罚,下一时刻tokens的概率分布pi如下:

10.一种基于信息链和动态核采样的评论生成系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于信息链和动态核采样的评论生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于信息链和动态核采样的评论生成方法,其特征在于,清洗包括去除重复数据、处理缺失值、去除html标签、过滤特殊符号或表情符操作;预处理包括分词、去除停用词、词干化或词形归一化操作。

3.根据权利要求1所述的基于信息链和动态核采样的评论生成方法,其特征在于,使用tf-idf提取微博文本中的关键词,并根据与微博文本的相关性对关键词进行排序和筛选,具体如下:

4.根据权利要求3所述的基于信息链和动态核采样的评论生成方法,其特征在于,tf-idf值具体为:

5.根据权利要求3所述的基于信息链和动态核采样的评论生成方法,其特征在于,...

【专利技术属性】
技术研发人员:孙鹤立黄小勇朱琳琳李梦田吴家若李佳馨
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1