【技术实现步骤摘要】
一种基于无监督的多模型融合抽取式文本摘要方法
本专利技术涉及信息抽取领域,更具体地说,它涉及一种基于无监督的多模型融合抽取式文本摘要方法。
技术介绍
随着人们的生活节奏的加快,人们对文本阅读的耐心也随之减少,在人们需要读取一长段新闻或者冗长的学术论文时,往往因为文本篇幅过长而失去阅读耐心,所以为了加快阅读速度,目前市场上出现了对文章进行智能重要信息抽取的技术,以便人们可以快速了解到文章中的重点信息,节约阅读时间,提高阅读者的阅读效率。现有的抽取式文本摘要技术,无法考虑到句子的语义信息,抽取的结果过于单一,信息冗余,丢失部分重要信息,抽取的结果无法准确全面地描述文章内容。
技术实现思路
本专利技术的目的是提供一种基于无监督的多模型融合抽取式文本摘要方法,利用多模型融合的方式,对文本内容进行语义理解和分析,充分考虑句子的位置信息,能够准确的计算每个句子的重要程度,提高了摘要结果的准确性、灵活性、多样性。本专利技术的上述技术目的是通过以下技术方案得以实现的:一种基于无监督的多模型融合抽取式文本摘要方法,包括以下步骤:预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;使用MMR算法对候选摘要middle_summary计算得到最终摘要f ...
【技术保护点】
1.一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:包括以下步骤:/n预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;/n融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;/n使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary。/n
【技术特征摘要】
1.一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:包括以下步骤:
预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;
融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;
使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary。
2.根据权利要求1所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:所述中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;所述语义相似度捕捉模型采取的是改进的TextRank模型,改进的内容包括使用分布式表示词向量和余弦相似度。
3.根据权利要求2所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:对PacSum模型进行训练优化包括以下步骤:
输入用作训练语料的文档集T;
对文档集T进行文本预处理;
对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={(βi,ηi,θi)|i=1...924},初始时令i=1,令rouge_list为空列表;
对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;
对摘要列表计算ROUGE评分,摘要列表中每个摘要C的ROUGE评分计算公式,公式如下:
其中,R代表召回率,P代表准确率,F代表F1分值;ri为参考摘要的第i个句子;C为待处理摘要;LCS/lcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列,结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;
把rouge_i加入到列表rouge_list;再令i=i+1,若i<=924,重复执行得到ROUGE评分;若i>924,进行下一步;
从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数。
4.根据权利要求3所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:对待处理文档计算摘要包括以下步骤:
输入:当前待处理文档,超参数β,η,θ;
在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;
在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;
使用超参数β由待处理文档构造图G;
使用超参数η,θ由图G计算得到摘要。
5.根据权利要求4所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:使用超参数β由待处理文档构造图G包括以下步骤:
输入:当前待处理文档,超参数β;设待处理文档中句子总数为n;
创建有向图G=(V,F),顶点集V是待处理文档中的所有句子构成的集合,即V={Vi|i=1...n},边集F表示句子之间的关系;
对V中的每个句子Vi计算对应的句向量vi,Vi中的每个词w对应的句向量vi中的维度vi(w)为该词w的TF-IDF分值,计算公式如下:
其
其中tfi(w)为词w在句子Vi中出现的次数,df(w)为待处理文档中包含w的句子总数,n为待处理文档的句子总数;
创建相似度矩阵中i行j列元素,为句子Vi和Vj的相似度,通过两个句向量vi、vj的内积计算得到,公式如下:
对相似度矩阵进行规范化,得到图G的邻接矩阵E,计算公式如下:
其中β为超参数;Eij为邻接矩阵E的第i行j列元素,代表顶...
【专利技术属性】
技术研发人员:司马华鹏,靳超超,姚奥,
申请(专利权)人:南京硅基智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。