一种基于无监督的多模型融合抽取式文本摘要方法技术

技术编号:25835490 阅读:21 留言:0更新日期:2020-10-02 14:16
本发明专利技术涉及信息抽取领域,公开了一种基于无监督的多模型融合抽取式文本摘要方法,解决了现有的抽取式文本摘要技术,无法考虑到句子的语义信息,抽取的结果无法准确全面地描述文章内容的问题,其技术方案要点是预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary,利用多模型融合的方式,对文本内容进行语义理解和分析,充分考虑句子的位置信息,能够准确的计算每个句子的重要程度,提高了摘要结果的准确性、灵活性和多样性。

【技术实现步骤摘要】
一种基于无监督的多模型融合抽取式文本摘要方法
本专利技术涉及信息抽取领域,更具体地说,它涉及一种基于无监督的多模型融合抽取式文本摘要方法。
技术介绍
随着人们的生活节奏的加快,人们对文本阅读的耐心也随之减少,在人们需要读取一长段新闻或者冗长的学术论文时,往往因为文本篇幅过长而失去阅读耐心,所以为了加快阅读速度,目前市场上出现了对文章进行智能重要信息抽取的技术,以便人们可以快速了解到文章中的重点信息,节约阅读时间,提高阅读者的阅读效率。现有的抽取式文本摘要技术,无法考虑到句子的语义信息,抽取的结果过于单一,信息冗余,丢失部分重要信息,抽取的结果无法准确全面地描述文章内容。
技术实现思路
本专利技术的目的是提供一种基于无监督的多模型融合抽取式文本摘要方法,利用多模型融合的方式,对文本内容进行语义理解和分析,充分考虑句子的位置信息,能够准确的计算每个句子的重要程度,提高了摘要结果的准确性、灵活性、多样性。本专利技术的上述技术目的是通过以下技术方案得以实现的:一种基于无监督的多模型融合抽取式文本摘要方法,包括以下步骤:预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary。作为本专利技术的一种优选技术方案,所述中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;所述语义相似度捕捉模型采取的是改进的TextRank模型,改进的内容包括使用分布式表示词向量和余弦相似度。作为本专利技术的一种优选技术方案,对PacSum模型进行训练优化包括以下步骤:输入用作训练语料的文档集T;对文档集T进行文本预处理;对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={(βi,ηi,θi)|i=1...924},初始时令i=1,令rouge_list为空列表;对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;对摘要列表计算ROUGE评分,摘要列表中每个摘要C的ROUGE评分计算公式,公式如下:其中,R代表召回率,P代表准确率,F代表F1分值;ri为参考摘要的第i个句子;C为待处理摘要;LCS/lcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列,结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;把rouge_i加入到列表rouge_list;再令i=i+1,若i<=924,重复执行得到ROUGE评分;若i>924,进行下一步;从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数。作为本专利技术的一种优选技术方案,对待处理文档计算摘要包括以下步骤:输入:当前待处理文档,超参数β,η,θ;在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;使用超参数β由待处理文档构造图G;使用超参数η,θ由图G计算得到摘要。作为本专利技术的一种优选技术方案,使用超参数β由待处理文档构造图G包括以下步骤:输入:当前待处理文档,超参数β;设待处理文档中句子总数为n;创建有向图G=(V,F),顶点集V是待处理文档中的所有句子构成的集合,即V={Vi|i=1...n},边集F表示句子之间的关系;对V中的每个句子Vi计算对应的句向量vi,Vi中的每个词w对应的句向量vi中的维度vi(w)为该词w的TF-IDF分值,计算公式如下:其中tfi(w)为词w在句子Vi中出现的次数,df(w)为待处理文档中包含w的句子总数,n为待处理文档的句子总数;创建相似度矩阵中i行j列元素,为句子Vi和Vj的相似度,通过两个句向量vi、vj的内积计算得到,公式如下:对相似度矩阵进行规范化,得到图G的邻接矩阵E,计算公式如下:其中β为超参数;Eij为邻接矩阵E的第i行j列元素,代表顶点i与顶点j之间的边上的权值;分别为最小相似度和最大相似度;至此图G=(V,F)构造完成。作为本专利技术的一种优选技术方案,使用超参数η,θ由图G计算得到摘要包括以下步骤:输入图G、超参数η以及超参数θ;对图G每个顶点上的句子Vi计算中心度得分centrality(Vi),公式如下:其中Eij为顶点i和顶点j之间的边上的权值;按照中心度得分centrality(Vi)从大到小排序,取前L个句子作为摘要,其中L为预先设定的摘要句子数。作为本专利技术的一种优选技术方案,用改进的TextRank模型计算得到第二批摘要summary2包括如下子步骤:输入待处理文档;创建无向图H=(U,J),顶点集U是待处理文档中所有句子的构成的集合,边集J中的边表示句子之间的关系,图H的邻接矩阵记为M;加载预训练的word2vec词向量模型,对待处理文档中的每个句子Ui中所有词的词向量求平均得到句向量,所有句向量构成矩阵X,维度为n*m,n为句子总数,,m为每个句向量的维度,m=100...1000;邻接矩阵M中第i行j列的元素表示顶点Ui到Uj的边上的权值,即为句向量Xi和Xj的余弦相似度,计算公式为:其中,Xi、Xj分别是第i,j个句子的句向量,i,j=1...n;利用TextRank分值计算公式迭代计算每个句子Ui的得分WS(Ui),公式如下:其中i=1...n;d为阻尼系数,取值为d=0.85;In(Ui)为指向顶点Ui的顶点集,Out(Uj)为顶点Uj指向的顶点集;Mji,Mjk分别为入度与出度边的权值;按照最终得分WS(Ui)从大到小顺序输出前L个句子作为文档的第二批本文档来自技高网...

【技术保护点】
1.一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:包括以下步骤:/n预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;/n融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;/n使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary。/n

【技术特征摘要】
1.一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:包括以下步骤:
预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;
融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;
使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary。


2.根据权利要求1所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:所述中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;所述语义相似度捕捉模型采取的是改进的TextRank模型,改进的内容包括使用分布式表示词向量和余弦相似度。


3.根据权利要求2所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:对PacSum模型进行训练优化包括以下步骤:
输入用作训练语料的文档集T;
对文档集T进行文本预处理;
对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={(βi,ηi,θi)|i=1...924},初始时令i=1,令rouge_list为空列表;
对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;
对摘要列表计算ROUGE评分,摘要列表中每个摘要C的ROUGE评分计算公式,公式如下:









其中,R代表召回率,P代表准确率,F代表F1分值;ri为参考摘要的第i个句子;C为待处理摘要;LCS/lcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列,结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;
把rouge_i加入到列表rouge_list;再令i=i+1,若i<=924,重复执行得到ROUGE评分;若i>924,进行下一步;
从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数。


4.根据权利要求3所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:对待处理文档计算摘要包括以下步骤:
输入:当前待处理文档,超参数β,η,θ;
在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;
在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;
使用超参数β由待处理文档构造图G;
使用超参数η,θ由图G计算得到摘要。


5.根据权利要求4所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:使用超参数β由待处理文档构造图G包括以下步骤:
输入:当前待处理文档,超参数β;设待处理文档中句子总数为n;
创建有向图G=(V,F),顶点集V是待处理文档中的所有句子构成的集合,即V={Vi|i=1...n},边集F表示句子之间的关系;
对V中的每个句子Vi计算对应的句向量vi,Vi中的每个词w对应的句向量vi中的维度vi(w)为该词w的TF-IDF分值,计算公式如下:


其中tfi(w)为词w在句子Vi中出现的次数,df(w)为待处理文档中包含w的句子总数,n为待处理文档的句子总数;
创建相似度矩阵中i行j列元素,为句子Vi和Vj的相似度,通过两个句向量vi、vj的内积计算得到,公式如下:



对相似度矩阵进行规范化,得到图G的邻接矩阵E,计算公式如下:






其中β为超参数;Eij为邻接矩阵E的第i行j列元素,代表顶...

【专利技术属性】
技术研发人员:司马华鹏靳超超姚奥
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1