一种基于预训练模型的话题生成方法技术

技术编号:38103236 阅读:11 留言:0更新日期:2023-07-06 09:22
本发明专利技术提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明专利技术由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。使得聚类结果更加准确。使得聚类结果更加准确。

【技术实现步骤摘要】
一种基于预训练模型的话题生成方法


[0001]本专利技术涉及自然语言处理领域,特别是涉及一种基于预训练模型的话题生成方法。

技术介绍

[0002]互联网的飞速发展伴随着每天产生大量的文本数据,与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。如何从大量无序、杂乱、无结构的文本中快速、高效地获取有用信息已成为一个亟待解决的问题。话题能够概括相似文本的主要信息。在当前的话题生成研究方法中,大部分研究方法使用聚类,抽取话题中文本的关键词等作为话题的标签来表示话题,但是关键词没有顺序,没有完整的逻辑语义关系,不能充分表示话题的主要信息。
[0003]专利文献1(CN106503064A,一种自适应微博话题摘要的生成方法)公开了一种自适应微博话题摘要的生成方法,对微博中某一话题下的相关信息进行话题生成,但是它不能处理微博中有多个话题的情况,而且它对子话题只是选取一篇代表性博文代表该子话题,抽取摘要作为当前子话题的描述,该摘要并不能代表子话题中全部的博文,由于摘要文本过长,并不利于用户快速获取话题信息。
[0004]专利文献2(CN106446179A,热点话题的生成方法及装置)公开了一种热点话题的生成方法,对新闻进行聚类,根据聚类的相似新闻抽取权重较高的词作为话题的主题,然而,将词语作为主题并不能描述话题的主要信息,也不能概括话题中的全部新闻。
[0005]专利文献3(CN106528755A,热点话题的生成方法及装置,)公开了一种热点话题生成方法,该方法通过获取新闻中的主题词,根据主题词之间的词共现度生成主题词共现图,将共现图分割成多个子图,每个子图代表一个话题,然而,也没有生成特定的话题名代表这个话题,而且用主题词代表话题,也不能准确表示话题的信息。
[0006]由此可知,已有的话题生成方法主要利用文本聚类得到多个话题,然后对同一话题下的新闻抽取关键词或摘要或抽取标题的主谓宾作为话题标签表示整个话题。然而,关键词没有顺序,也没有语义信息,不能表示整个话题和话题中的全部文档。摘要的文本过长,不利于快速获得话题信息,也不能概括话题中全部新闻的内容。抽取主谓宾主要通过抽取标题中的主语、谓语、宾语等,然后进行拼接作为话题的描述,但是这样得到的话题描述不通顺,可读性较差。另外,已有的话题生成方法并没有对聚类结果进行清洗和优化,导致话题的聚类结果并不理想。

技术实现思路

[0007]针对上述技术问题,本专利技术采用的技术方案为:
[0008]本专利技术实施例提供了一种基于预训练模型的话题生成方法,所述方法包括如下步骤:
[0009]S1,获取待聚类文本中的每个文本的特征向量和关键词,并基于每个文本的特征
向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;每个文本包括h个关键词;
[0010]S2,获取当前话题中的任一话题中的任一文本以及任一话题的关键词和特征向量;
[0011]S3,基于文本和话题之间的关键词相同的数量和文本和话题的特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:g
p
(a,q)≥D1
p
并且SF
paq
≥D2
p
;其中,g
p
(a,q)为话题a和话题a中的第q个文本T
aq
之间的关键词相同的数量,SF
paq
为话题a的特征向量和T
aq
的特征向量之间的相似度;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量;
[0012]S4,设置p=p+1,如果p≤C0,执行S2;否则,得到清洗处理后的H个话题,并执行S5;
[0013]S5,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词和特征向量,u的取值为1到H;
[0014]S6,基于话题之间的关键词相同的数量以及话题的特征向量之间的相似度对S进行合并处理,得到包括A个话题的目标话题列表;
[0015]S7,对于A个话题中的任一话题e,基于预训练生成模型生成对应的话题描述;e的取值为1到A;
[0016]S8,输出A个话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。
[0017]本专利技术至少具有以下有益效果:
[0018]本专利技术实施例提供的基于预训练模型的话题生成方法,首先对文本进行特征提取、文本聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题与话题中文本的关键词相同个数和文本相似度大小,清洗和合并话题,然后基于预训练生成模型生成话题描述,最后输出话题结果。本专利技术由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
附图说明
[0019]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术实施例提供的基于预训练模型的话题生成方法的流程图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]图1为本专利技术实施例提供的基于预训练模型的话题生成方法的流程图。
[0023]本专利技术实施例提供一基于预训练模型的话题生成方法,如图1所示,所述方法可包括如下步骤:
[0024]S1,获取待聚类文本中的每个文本的特征向量和关键词,并基于每个文本的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题,其中,每个文本包括h个关键词。
[0025]在本专利技术一示意性实施例中,文本可为新闻文本,也可为其它类型的文本。文本可通过从各个网站或渠道爬取得到。
[0026]在本专利技术实施例中,可通过现有的关键词提取方法获取每个文本的关键词。在一个示意性实施例中,本专利技术通过TextRank算法获取每个文本的关键词和每个关键词对应的权重。关键词的数量h可基于实际需要进行设置,在一个示例中,h=7。
[0027]在本专利技术实施例中,可通过现有的特征提取方法获取每个文本的特征向量。在一个示意性实施例中,可通过RoFormer

Sim模型获取每个文本的特征向量,具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的话题生成方法,其特征在于,所述方法包括如下步骤:S1,获取待聚类文本中的每个文本的特征向量和关键词,并基于每个文本的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;每个文本包括h个关键词;S2,获取当前话题中的任一话题中的任一文本以及任一话题的关键词和特征向量;S3,基于文本和话题之间的关键词相同的数量和文本和话题的特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:g
p
(a,q)≥D1
p
并且SF
paq
≥D2
p
;其中,g
p
(a,q)为话题a和话题a中的第q个文本T
aq
之间的关键词相同的数量,SF
paq
为话题a的特征向量和T
aq
的特征向量之间的相似度;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量;S4,设置p=p+1,如果p≤C0,执行S2;否则,得到清洗处理后的H个话题,并执行S5;S5,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词和特征向量,u的取值为1到H;S6,基于话题之间的关键词相同的数量以及话题的特征向量之间的相似度对S进行合并处理,得到包括A个话题的目标话题列表;S7,对于A个话题中的任一话题e,基于预训练生成模型生成对应的话题描述;e的取值为1到A;S8,输出A个话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。2.根据权利要求1所述的方法,其特征在于,S7具体包括:S701,对于A个话题中的任一话题e,分别获取话题e的关键词和话题特征向量;S702,获取话题特征向量相似度集SF
e
={SF
e1
,SF
e2


,SF
eh


,SF
ef(e)
},SF
eh
为话题e中的第h个文本T
eh
对应的特征向量和话题e对应的话题特征向量之间的相似度;h的取值为1到f(e),f(e)为话题e中的文本数量;S703,将SF
e
按照相似度由大到小的顺序进行排序,得到排序后的相似度集,并获取排序后的相似度集中的前B个相似度对应的B个文本作为候选文本;S704,获取关键词相同数量集G
e
={g
e1
,g
e2


,g
ea


,g
eB
},g
ea
为B个候选文本中的第a个文本和话题e之间的关键词相同的数量,a的取值为1到B;S705,将G
e
按照数量由大到小的顺序进行排序,得到排序后的数量集,并获取排序后的数量集中的前q个数量对应的文本作为话题e的目标文本;S706,将获取的q个目标文本的标题进行拼接,形成拼接标题,并将拼接标题输入到预训练生成模型中进行预测,得到对应的预测的话题描述,作为话题e的话题描述。3.根据权利要求1所述的方法,其特征在于,S7具体包括:S710,对于A个话题中的任一话题e,分别获取话题e的关键词和话题特征向量;S711,获取话题特征向量相似度集SF
e
={SF
e1
,SF
e2


,SF
eh


,SF
ef(e)
},SF
eh
为话题e中的第h个文本T
eh
对应的特征向量和话题e对应的话题特征向量之间的相似度;h的取值为1到f(e),f(e)为话题e中的文本数量;S712,将话题e中的第h个文本的标题输入到预训练生成模型中进行预测,得到对应的
话题描述TD
eh
;得到f(e)个话题描述;S713,基于SF
e
,获取f(e)个话题描述对应的权重集W
e
={w
e1
,w
e2


,w
eh


,w
ef(e)
};w
eh
为TD
eh
对应的权重,其中,如果SF
eh
<SF
e(h+1)
,则w
eh
<w
e(h+1)
;S714,将f(e)个话题描述中相同的话题描述进行合并,得到n(e)个话题描述,并获取n(e)个话题描述对应的权重集;S715,获取n(e)个话题描述对应的权重集中最大权重对应的话题描述作为话题e的话题描述。4.根据权利要求1所述的方法,其特征在于,S3具体包括:S31,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本T
ij
,分别获取g
p
(i,j)和SF
pij
,如果g
p
(i,j)≥D1
p
,并且SF
pij
≥D2 p
,则将T
ij
保留在话题i中,执行S34;否则,执行...

【专利技术属性】
技术研发人员:王磊郭鸿飞王俊艳徐才王柯淇蔡昌艳王宇琪曹家罗引
申请(专利权)人:新华融合媒体科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1