【技术实现步骤摘要】
一种基于预训练模型的话题生成方法
[0001]本专利技术涉及自然语言处理领域,特别是涉及一种基于预训练模型的话题生成方法。
技术介绍
[0002]互联网的飞速发展伴随着每天产生大量的文本数据,与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。如何从大量无序、杂乱、无结构的文本中快速、高效地获取有用信息已成为一个亟待解决的问题。话题能够概括相似文本的主要信息。在当前的话题生成研究方法中,大部分研究方法使用聚类,抽取话题中文本的关键词等作为话题的标签来表示话题,但是关键词没有顺序,没有完整的逻辑语义关系,不能充分表示话题的主要信息。
[0003]专利文献1(CN106503064A,一种自适应微博话题摘要的生成方法)公开了一种自适应微博话题摘要的生成方法,对微博中某一话题下的相关信息进行话题生成,但是它不能处理微博中有多个话题的情况,而且它对子话题只是选取一篇代表性博文代表该子话题,抽取摘要作为当前子话题的描述,该摘要并不能代表子话题中全部的博文,由于摘要文本过长,并不利于用户快速获取话题信息。
[0004]专利文献2(CN106446179A,热点话题的生成方法及装置)公开了一种热点话题的生成方法,对新闻进行聚类,根据聚类的相似新闻抽取权重较高的词作为话题的主题,然而,将词语作为主题并不能描述话题的主要信息,也不能概括话题中的全部新闻。
[0005]专利文献3(CN106528755A,热点话题的生成方法及装置,)公开了一种热点话题生成方法,该方法通过获取新闻中的主题词,根据主 ...
【技术保护点】
【技术特征摘要】
1.一种基于预训练模型的话题生成方法,其特征在于,所述方法包括如下步骤:S1,获取待聚类文本中的每个文本的特征向量和关键词,并基于每个文本的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;每个文本包括h个关键词;S2,获取当前话题中的任一话题中的任一文本以及任一话题的关键词和特征向量;S3,基于文本和话题之间的关键词相同的数量和文本和话题的特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:g
p
(a,q)≥D1
p
并且SF
paq
≥D2
p
;其中,g
p
(a,q)为话题a和话题a中的第q个文本T
aq
之间的关键词相同的数量,SF
paq
为话题a的特征向量和T
aq
的特征向量之间的相似度;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量;S4,设置p=p+1,如果p≤C0,执行S2;否则,得到清洗处理后的H个话题,并执行S5;S5,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词和特征向量,u的取值为1到H;S6,基于话题之间的关键词相同的数量以及话题的特征向量之间的相似度对S进行合并处理,得到包括A个话题的目标话题列表;S7,对于A个话题中的任一话题e,基于预训练生成模型生成对应的话题描述;e的取值为1到A;S8,输出A个话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。2.根据权利要求1所述的方法,其特征在于,S7具体包括:S701,对于A个话题中的任一话题e,分别获取话题e的关键词和话题特征向量;S702,获取话题特征向量相似度集SF
e
={SF
e1
,SF
e2
,
…
,SF
eh
,
…
,SF
ef(e)
},SF
eh
为话题e中的第h个文本T
eh
对应的特征向量和话题e对应的话题特征向量之间的相似度;h的取值为1到f(e),f(e)为话题e中的文本数量;S703,将SF
e
按照相似度由大到小的顺序进行排序,得到排序后的相似度集,并获取排序后的相似度集中的前B个相似度对应的B个文本作为候选文本;S704,获取关键词相同数量集G
e
={g
e1
,g
e2
,
…
,g
ea
,
…
,g
eB
},g
ea
为B个候选文本中的第a个文本和话题e之间的关键词相同的数量,a的取值为1到B;S705,将G
e
按照数量由大到小的顺序进行排序,得到排序后的数量集,并获取排序后的数量集中的前q个数量对应的文本作为话题e的目标文本;S706,将获取的q个目标文本的标题进行拼接,形成拼接标题,并将拼接标题输入到预训练生成模型中进行预测,得到对应的预测的话题描述,作为话题e的话题描述。3.根据权利要求1所述的方法,其特征在于,S7具体包括:S710,对于A个话题中的任一话题e,分别获取话题e的关键词和话题特征向量;S711,获取话题特征向量相似度集SF
e
={SF
e1
,SF
e2
,
…
,SF
eh
,
…
,SF
ef(e)
},SF
eh
为话题e中的第h个文本T
eh
对应的特征向量和话题e对应的话题特征向量之间的相似度;h的取值为1到f(e),f(e)为话题e中的文本数量;S712,将话题e中的第h个文本的标题输入到预训练生成模型中进行预测,得到对应的
话题描述TD
eh
;得到f(e)个话题描述;S713,基于SF
e
,获取f(e)个话题描述对应的权重集W
e
={w
e1
,w
e2
,
…
,w
eh
,
…
,w
ef(e)
};w
eh
为TD
eh
对应的权重,其中,如果SF
eh
<SF
e(h+1)
,则w
eh
<w
e(h+1)
;S714,将f(e)个话题描述中相同的话题描述进行合并,得到n(e)个话题描述,并获取n(e)个话题描述对应的权重集;S715,获取n(e)个话题描述对应的权重集中最大权重对应的话题描述作为话题e的话题描述。4.根据权利要求1所述的方法,其特征在于,S3具体包括:S31,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本T
ij
,分别获取g
p
(i,j)和SF
pij
,如果g
p
(i,j)≥D1
p
,并且SF
pij
≥D2 p
,则将T
ij
保留在话题i中,执行S34;否则,执行...
【专利技术属性】
技术研发人员:王磊,郭鸿飞,王俊艳,徐才,王柯淇,蔡昌艳,王宇琪,曹家,罗引,
申请(专利权)人:新华融合媒体科技发展北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。