一种基于持续学习的多文档融合深度学习标题生成方法技术

技术编号:39044337 阅读:29 留言:0更新日期:2023-10-10 11:57
本发明专利技术公开了一种基于持续学习的多文档融合深度学习标题生成方法,主要包括:S1:文本聚类;S2:文本检索;S3:多文档融合标题生成;该方法可以自动完成多文章融合标题生成过程,无需人工干预,并且还可以融合时事热点文章,不断持续学习最新的社会热点内容进行标题生成。本发明专利技术的方法采用优化的文本聚类算法、文本快速检索算法、文本融合算法和标题生成算法,可以在短时间内生成高质量的标题。以在短时间内生成高质量的标题。以在短时间内生成高质量的标题。

【技术实现步骤摘要】
一种基于持续学习的多文档融合深度学习标题生成方法


[0001]本专利技术属于计算机应用领域,具体涉及一种基于持续学习的多文档融合深度学习标题生成方法。

技术介绍

[0002]在互联网+大数据信息时代,人们不再满足于通过纸质媒体获取新闻的方式方法。更多地依赖于网络新兴媒体,例如智能手机和平板电脑等移动设备的支持。这种更方便的新闻获取方式已成为了解重大突发事件的主要途径。但与此同时,随着互联网生态的快速发展,许多新的热点频出,这对文章标题的设计提出的新的要求。一部分存在蹭热度,或以夸大和不真实的“标题骗子”标题吸引读者,或者重复改换标题来报道同一新闻内容,甚至是与该信息无关的标题。
[0003]快速准确的文章标题生成方法将会直观的使读者接收到有效信息,节省时间和精力,提升阅读效率和感受;现有的文章标题生成方法是基于机器学习进行生成,这种方法还存在以下缺陷:
[0004]1)首先,现有技术主要缺点在于对单一文档的处理,很难将多个相关文档的信息融合到标题生成中。这导致生成的标题往往缺乏代表性,难以高度概括文章及其背后相关联的内容。...

【技术保护点】

【技术特征摘要】
1.一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,包括以下步骤:S1:文本聚类:基于预训练的Sentence

BERT模型,将每篇文章转换为一个固定长度的向量;再使用GMM聚类算法对上述向量进行聚类为不同的簇,每个簇包含一组相似的文章;S2:文本检索:基于聚类结果,从系统库中寻找与输入文章最相似的文章组,作为多文档融合标题生成的输入;S3:多文档融合标题生成:将检索得到的与输入文章最相似的文章组及标题一起输入多文档融合标题生成模型;由多文档融合标题生成模型输出一个符合输入文章内容又结合了其他相关文章标题和内容的新标题。2.根据权利要求1所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述Sentence

BERT模型的预训练方法为:1)数据预处理:将原始文本进行分词,再将分词后的文本转换为向量表示;2)模型架构:Sentence

BERT使用包含两个共享参数BERT模型的孪生网络结构,将句子对分别输入到这两个BERT模型中,然后将Bert输出的句子所有字向量传入Pooling层进行平均池化,获取到每个句子的句向量表示;两个句向量分别用u和v表示;3)相似度计算:使用余弦相似度公式计算两个句向量u和v之间的相似度:其中u和v,分别是两个句子的句向量表示,
·
表示向量点积运算;|u|,|v|分别表示这两个句向量的模;4)损失函数:Sentence

BERT使用均方误差MSE作为损失函数,其公式如下:其中n表示训练集的样本数,u
i
和v
i
分别是第i个句子对的句向量表示,sim(u
i
,v
i
)表示这两个句子向量的相似度,y
i
表示这个句子对的相似度标签;通过最小化这个损失函数,模型能够学习到一组句向量表示,使得相似的句子在向量空间中距离更近,不相似的句子在向量空间中距离更远;5)模型训练:对于训练数据中的每一对句子,计算它们之间的相似度,并根据这些相似度计算模型的损失函数;然后使用随机梯度下降或Adam等优化算法来优化模型参数,使得模型能够更好地预测相似度;6)模型评估:使用测试数据来评估模型的性能,通常使用平均精度均值或准确率等指标来评估模型的性能。3.根据权利要求1所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述GMM聚类模型训练方法为:1)初始化模型参数:随机初始化包括聚类个数k、每个聚类的权重π、均值向量μ和协方差矩阵Σ的模型参数;2)Expectation步骤:根据当前模型参数计算每个样本x
i
属于每个聚类的概率P(z=j|x
i
),即计算后验概率;可以得到:
其中,N(x
i

j
,∑
j
)表示多维高斯分布的概率密度函数;3)Maximization步骤:根据样本点属于每个高斯分布的概率,更新每个高斯分布的均值向量和协方差矩阵;具体来说,更新聚类的权重π
j
、均值向量μ
j
和协方差矩阵∑
j
;具体更新公式如下:权重更新公式:均值向量更新公式:协方差矩阵更新公式:4)重复执行Expectation步骤和Maximization步骤,直到收敛。4.根据权利要求1所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述文本检索的算法步骤为:1)基于预训练后的Sentence

BERT模型,将输入文章转换为一个固定长度的向量表示;2)对于每个簇,计算簇的质心向量,并将输入文章的向量表示与质心向量进行相似度比较,计算它们之间的余弦相似度;余弦相似度值越高,表示两个向量越相似;3)选择与输入文章最相似的簇,并从该簇中随机选择一个或多个文章作为标...

【专利技术属性】
技术研发人员:林海杨群英周岚李伟军付永乐
申请(专利权)人:深圳市智搜信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1