一种文本摘要提取方法、系统、终端及存储介质技术方案

技术编号:31583187 阅读:27 留言:0更新日期:2021-12-25 11:27
本发明专利技术公开了一种文本摘要提取方法、系统、终端及存储介质。所述方法包括:通过训练好的Transformer模型提取待处理文本中每个句子的特征向量;根据每个句子的特征向量对待处理文本中进行主题划分,并利用K

【技术实现步骤摘要】
一种文本摘要提取方法、系统、终端及存储介质


[0001]本专利技术涉及自然语言处理
,特别是涉及一种文本摘要提取方法、系统、终端及存储介质。

技术介绍

[0002]随着互联网时代各类文章的指数增长,想要阅读所有的相关文章和对文章进行人工摘要变得越来越困难。自动文本摘要技术可以帮助用户提取出文章的关键信息,为阅读提供便利。
[0003]传统的文本摘要方法通常都是基于TF(Term Frequency,词频)、TF

IDF(term frequency

inverse document frequency,一种用于信息检索与数据挖掘的常用加权技术)等进行的统计学方法表示,该方法对输入文本的特征表示过于简单,忽略了文本中存在的语义信息,会导致真正重要的句子得分过低而无法被识别出来,文本摘要的准确度较低。

技术实现思路

[0004]本专利技术提供了一种文本摘要提取方法、系统、终端及存储介质,旨在解决现有的文本摘要方法忽略了文本中存在的语义信息,导致文本摘要准确度较低等技术问题。...

【技术保护点】

【技术特征摘要】
1.一种文本摘要提取方法,其特征在于,包括:通过训练好的Transformer模型提取待处理文本中每个句子的特征向量;根据每个句子的特征向量对待处理文本中进行主题划分,并利用K

means算法抽取出各个主题的关键句;将所抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取,得到待处理文本的文本摘要。2.根据权利要求1所述的文本摘要提取方法,其特征在于,所述通过训练好的Transformer模型提取待处理文本中每个句子的特征向量包括:基于掩码语言模型任务随机遮挡每个句子中的词语,通过所述Transformer模型预测遮挡词语,并在预测过程中记住每一个词语的上下文语义信息,同时配合注意力机制学习每个词语在各个语义环境下的特征向量。3.根据权利要求2所述的文本摘要提取方法,其特征在于,所述根据每个句子的特征向量对待处理文本中进行主题划分包括:利用Mean

shift算法对每个句子的特征向量进行聚类,根据聚类结果对待处理文本进行主题划分,并获取各个主题的句子簇。4.根据权利要求3所述的文本摘要提取方法,其特征在于,所述利用Mean

shift算法对每个句子的特征向量进行聚类包括:将每个句子的特征向量在高纬空间中表示成一个高斯分布;其中所在区域的句子越密集则表示高斯分布叠加下对应的概率密度值越高;将局部最高概率密度范围内的句子划分为同一个主题,形成一个句子簇。5.根据权利要求4所述的文本摘要提取方法,其特征在于,所述句子簇形成过程包括:使用Mean

shift算法对句子的特征向量进行聚类;根据语义环境对Mean

shift算法的参数带宽进行监督学习,得到标准带宽;利用梯度下降法找出在所述标准带宽范围内每个局部最高概率密度的位置,并根据概率的等高线将各个句子划分到不同的句子簇下;其中,每个句子簇的边缘为属于两个局部概率密度最高点山谷的谷底...

【专利技术属性】
技术研发人员:李志韬王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1