【技术实现步骤摘要】
一种用于生成式摘要的评估方法及排序网络
本专利技术属于人工智能
,涉及一种用于生成式摘要的评估方法及排序网络。
技术介绍
随着深度学习技术的快速发展,自动文摘成为了可能。目前,评估生成摘要的评测指标是Rouge分数。根据评测粒度(词格)的不同,Rouge分数可以分为Rouge-N、Rouge-L、Rouge-W、Rouge-S等。第一,Rouge-N,它表示的是生成摘要和真实摘要中n格单词的召回情况,具体的公式是其中分母表示真实摘要中n格单词的个数,分子则表示的是真实摘要和自动摘要共同出现的n格单词的个数。第二,Rouge-L,L表示的是最长公共序列,其具体公式分别是最长公共子序列的召回率,准确率和F测度:和其中X是长度为m的真实摘要;而Y是长度为n的生成摘要,β为精确率和召回率的比值。第三,Rouge-W是在Rouge-L的基础上改变不同的对应权重计算而得到的计算方法。第四,Rouge-S,S表示skip-grams,即在匹配真实摘要和生成摘要时,允许跳过N个单词,如skip-bigram,即最多允许跳过两个单词。现有的自动摘要评估指标Rouge分数的本质是匹配原文与摘要的共现程度,生成式摘要模型也采用这种评估指标。但是,Rouge分数忽略了生成式摘要的语言多样性以及文本与摘要的语义相关性,使得基于Rouge分数的评估方法不合理。
技术实现思路
本专利技术提出了一种新型的评估生成式摘要质量的评估方法及排序网络,用于评估生成式摘要,其从摘要的语言流畅性 ...
【技术保护点】
1.一种用于生成式摘要的评估方法,其步骤包括:/n1)将每一所选文本X通过m个生成式摘要系统,将生成的m个生成式摘要组成摘要候选项Y_all={Y_1,Y_2,…,Y_m};将文本X及其真实摘要Y′和摘要候选项Y_all一一配对,生成一三元组(X,Y′,Y_all)作为训练集的一样本;其中,Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要;/n2)将所述训练集通过训练好的语言模型得到每一样本的生成式摘要的摘要语言流畅度Score_1,将所述训练集通过训练好的相似度模型得到每一样本的生成式摘要与文本的相似度Score_2,将所述训练集通过训练好的原文信息量模型得到每一样本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4;/n3)基于所述训练集中样本的真实摘要,选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重;/n4)对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的摘要语言流畅度Score_1、摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现 ...
【技术特征摘要】
1.一种用于生成式摘要的评估方法,其步骤包括:
1)将每一所选文本X通过m个生成式摘要系统,将生成的m个生成式摘要组成摘要候选项Y_all={Y_1,Y_2,…,Y_m};将文本X及其真实摘要Y′和摘要候选项Y_all一一配对,生成一三元组(X,Y′,Y_all)作为训练集的一样本;其中,Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要;
2)将所述训练集通过训练好的语言模型得到每一样本的生成式摘要的摘要语言流畅度Score_1,将所述训练集通过训练好的相似度模型得到每一样本的生成式摘要与文本的相似度Score_2,将所述训练集通过训练好的原文信息量模型得到每一样本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4;
3)基于所述训练集中样本的真实摘要,选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重;
4)对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的摘要语言流畅度Score_1、摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4,然后根据步骤3)确定的权重加权计算该文本a各摘要的摘要分数,确定该文本a各摘要的评估结果。
2.如权利要求1所述的方法,其特征在于,通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重。
3.如权利要求1所述的方法,其特征在于,生成摘要系统包括:Seq2Seq+Attention机制的模型,基于强化学习的生成模型和基于生成对抗网络的摘要模型。
4.如权利要求1所述的方法,其特征在于,使用统计语言模型n格语言模型算法评估摘要的语言流畅度Score_1。
5.如权利要求1所述的方法,其特征在于,计算生成式摘要与文本的相似度Score_2的方法为:设文本X由n个词组成,表示为x1,x2,···,xn,文本X的生成式摘要由m个词组成,表示为y1,y2,···,ym;其中xi表示文本X中第i个词的词向量,yj表示文本X的生成式摘要中第j个词的词向量,文本X的向量Xw和文本X的生成式摘要的向量Yw分别表示为:利用余弦相似度来衡量两个句子的空间距离,即:其中t表示词向量的第t维;对sim(Xw,Yw)归一化得到文...
【专利技术属性】
技术研发人员:曹亚男,徐灏,尚燕敏,刘燕兵,谭建龙,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。