当前位置: 首页 > 专利查询>深圳大学专利>正文

快速提取文本摘要的方法技术

技术编号:22218944 阅读:37 留言:0更新日期:2019-09-30 01:16
本发明专利技术公开了一种快速提取文本摘要的方法,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;步骤S30,进行迭代计算以获取第一句子权重矩阵;步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;步骤S60,基于第二句子权重矩阵确定文本摘要。本发明专利技术,实现快速提取文本摘要,且所提取的文本摘要能显著反应文本的真实语义,保证提取的效果。

A Method for Quick Extraction of Text Abstracts

【技术实现步骤摘要】
快速提取文本摘要的方法
本专利技术属于文字处理
,尤其涉及一种快速提取文本摘要的方法。
技术介绍
目前,现有的对于文本摘要的方法很多,比如第一个方法,基于词频-逆文档词频(TF-IDF)的文本摘要方法,其原理是该方法认为的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。而自动摘要就是要找出那些包含信息最多的句子。句子的信息量用”关键词”来衡量。如果包含的关键词越多,就说明这个句子越重要。而关键词的提取则是利用本身文档的词频与语料库中其他文档的逆词频相结合,得到关键词群。再利用关键词群去判断文档中各个句子的重要性。上述TFIDF算法提取关键词的效果严重依赖语料库,需要选取质量较高且和所处理文本相符的语料库进行训练。另外,对于IDF来说,本身倾向于文本中频率小的词,这使得TF-IDF算法的精度不高。TF-IDF不能反应词的位置信息,在对关键词进行提取的时候,词的位置信息,例如文本的标题、文本的首句和尾句等含有较重要的信息,应该赋予较高的权重。同时逆词频(IDF)是一种强烈依赖词频统计的方法,单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,并且认定重要句子就应该包括更多的关键词,这对于大部分文本信息,并不是完全正确的。与此同时TF-IDF算法也未将语义信息考虑进去。所以其抽取句子组合成的文摘效果并不好,关联性低。因此,现有技术有待于改善。
技术实现思路
本专利技术的主要目的在于提出一种快速提取文本摘要的方法,旨在解决
技术介绍
中所提及的技术问题,实现快速提取文本摘要,且所提取的文本摘要与文本的标题关联性高,保证提取的效果。本专利技术的快速提取文本摘要的方法,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;步骤S30,进行迭代计算以获取第一句子权重矩阵;步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;步骤S60,基于第二句子权重矩阵确定文本摘要。优选地,步骤S10具体包括:步骤S11,对待处理文档中的标点符号进行删除处理;步骤S12,获取待处理文档中每一句子的字数,将每一句子的字数与第一预设字数范围阈值进行对比,以形成字数属于第一预设字数范围阈值的若干句子。优选地,步骤S30具体包括:步骤S31,基于句向量计算句子间相似度,句子间相似度对应的公式为:其中,x代表句子i的句向量,y代表句子j的句向量,m为元素下标;步骤S32,基于句子间相似度计算相似度矩阵,相似度矩阵对应的公式为:其中,wij指句子i与句子j的句子间相似度;步骤S33,基于相似度矩阵和句子间相似度,计算第一句子权重矩阵,第一句子权重矩阵对应的公式为:其中,wss代表WS矩阵前一时刻(t-1)的元素,m为元素下标,d为衰减因子。优选地,位置信息包括候选句子在待处理文档中的所在位置。优选地,标题相似度信息包括候选句子与标题的相似度。优选地,步骤S50具体包括:步骤S51,基于候选句子在待处理文档的所在位置计算位置信息矩阵,位置信息矩阵对应的公式为:其中,βn表示第n个候选句子的权重;步骤S52,基于候选句子与标题计算标题相似度矩阵,标题相似度矩阵对应的公式为:其中,wtn表示第n个候选句子与标题的相似度;步骤S53,计算第二句子权重矩阵,第二句子权重矩阵对应的公式为:WS′n×1=(λWTn×1+Pn×1)×WSn×1其中,其中λ为标题相似度矩阵的衰减系数。优选地,步骤S60具体包括:步骤S61,根据第二句子权重矩阵对候选句子进行先后顺序排列;步骤S62,从已进行先后顺序排列的候选句子中选择第二预设数量的候选句子作为文本摘要。本专利技术的快速提取文本摘要的方法,有益效果如下:基于步骤S20,基于bert模型所映射成的句向量,能很好的从字符级、词级、句子级去表示语言真实的语义信息,即可以很好的利用到句子与句子间的真实语义去计算句子间相似度,基于步骤S30,迭代计算,减少计算所用的时间,大大减少计算的所用的时间。在确定文本摘要前,基于同时引入标题和位置信息,提高所确定的文本摘要的提取效果,保证文本摘要能显著反应整个待处理文档的重要信息。附图说明图1为本专利技术快速提取文本摘要的方法第一实施例的流程示意图;图2为本专利技术快速提取文本摘要的方法第一实施例中步骤S10的细化流程示意图;图3为本专利技术快速提取文本摘要的方法第一实施例中步骤S60的细化流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。需要注意的是,相关术语如“第一”、“第二”等可以用于描述各种组件,但是这些术语并不限制该组件。这些术语仅用于区分一个组件和另一组件。例如,不脱离本专利技术的范围,第一组件可以被称为第二组件,并且第二组件类似地也可以被称为第一组件。术语“和/或”是指相关项和描述项的任何一个或多个的组合。如图1所示,图1为本专利技术快速提取文本摘要的方法第一实施例的流程示意图。本专利技术的快速提取文本摘要的方法,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;在步骤S10中,如图2所示步骤S10具体包括:步骤S11,对待处理文档中的标点符号进行删除处理;步骤S12,获取待处理文档中每一句子的字数,将每一句子的字数与第一预设字数范围阈值进行对比,以形成字数属于第一预设字数范围阈值的若干句子;举个例子,第一预设字数范围阈值为5-8;以形成字数在5-8内的若干句子,也可理解为划分成上述若干句子。步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;在步骤S20中,Bert模型是由谷歌科学家发表的论文里面的自然语言处理算法模型,并且在github网站开源这个算法代码实现的工具,是现有的算法模型;可以将句子输出为固定长的序列(即固定维数的向量),能以结构化的形式传递语言信息,比如“我要睡觉了”、“我要休息了”、“今天天气真好”经过模型的输出后会变成3条1x768维的向量,例如其中一条表示为了[1.3,2.4,-25,...,9.3]一条向量里面就有768个元素,用计算向量距离的方法去计算这三条向量的距离,实际上就是转化为计算三句话的语义相似度,以上面三条为例子前面两句的相似度会明显大于与这两句分别与第三句的相似度。在步骤S20中,保护点在于该算法里利用句向量来表示句子去从而参与后续步骤S30计算获得摘要的这种方式,效果很好。例如,每条句子经过模型映射为o维的空间向量,得到整个句子群的表示向量矩阵为n*o的矩阵;o包括768。步骤S30,进行迭代计算以获取第一句子权重矩阵;对于步骤S30,步骤S30具体包括:步骤S31,基于句向量计算句子间相似度,句子间相似度对应的公式为:其中,x代表句子i的句向量,y代表句子j的句向量,m为元素下标;步骤S32,基于句子间相似度计算相似度矩阵,相似度矩阵对应的公式为:其中,wij指句子i与句子j的句子间相似度;步骤S33,基于相似度矩阵和句子间相似度,计算第一句子权重矩阵,第一句子权重矩阵对应的公式为:其中,w本文档来自技高网...

【技术保护点】
1.一种快速提取文本摘要的方法,其特征在于,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;步骤S30,进行迭代计算以获取第一句子权重矩阵;步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;步骤S60,基于第二句子权重矩阵确定文本摘要。

【技术特征摘要】
1.一种快速提取文本摘要的方法,其特征在于,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;步骤S30,进行迭代计算以获取第一句子权重矩阵;步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;步骤S60,基于第二句子权重矩阵确定文本摘要。2.如权利要求1所述快速提取文本摘要的方法,其特征在于,步骤S10具体包括:步骤S11,对待处理文档中的标点符号进行删除处理;步骤S12,获取待处理文档中每一句子的字数,将每一句子的字数与第一预设字数范围阈值进行对比,以形成字数属于第一预设字数范围阈值的若干句子。3.如权利要求1所述快速提取文本摘要的方法,其特征在于,步骤S30具体包括:步骤S31,基于句向量计算句子间相似度,句子间相似度对应的公式为:其中,x代表句子i的句向量,y代表句子j的句向量,m为元素下标;步骤S32,基于句子间相似度计算相似度矩阵,相似度矩阵对应的公式为:其中,wij指句子i与句子j的句子间相似度;步骤S33,基于相似度矩阵和句子间相...

【专利技术属性】
技术研发人员:代明军谢立陈彬林晓辉苏恭超王晖
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1