一种用于生成式摘要的评估方法及排序网络技术

技术编号：23099303 阅读：29 留言：0更新日期：2020-01-14 20:38

本发明专利技术公开了一种用于生成式摘要的评估方法及排序网络。本发明专利技术从三个方面来评估摘要质量：第一，运用语言模型来评估语言的流畅度；第二，使用相似度模型评估文本和摘要之间的语义相关性；第三，为了有效评估实体、专有词的复现程度，引入原文信息量模型来评估。本发明专利技术从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量，大大提高了评估的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于生成式摘要的评估方法及排序网络
本专利技术属于人工智能
，涉及一种用于生成式摘要的评估方法及排序网络。
技术介绍
随着深度学习技术的快速发展，自动文摘成为了可能。目前，评估生成摘要的评测指标是Rouge分数。根据评测粒度(词格)的不同，Rouge分数可以分为Rouge-N、Rouge-L、Rouge-W、Rouge-S等。第一，Rouge-N，它表示的是生成摘要和真实摘要中n格单词的召回情况，具体的公式是其中分母表示真实摘要中n格单词的个数，分子则表示的是真实摘要和自动摘要共同出现的n格单词的个数。第二，Rouge-L，L表示的是最长公共序列，其具体公式分别是最长公共子序列的召回率，准确率和F测度：和其中X是长度为m的真实摘要；而Y是长度为n的生成摘要，β为精确率和召回率的比值。第三，Rouge-W是在Rouge-L的基础上改变不同的对应权重计算而得到的计算方法。第四，Rouge-S，S表示skip-grams，即在匹配真实摘要和生成摘要时，允许跳过N个单词，如skip-bigram，即最多允许跳过两个单词。现有的自动摘要评估指标Rouge分数的本质是匹配原文与摘要的共现程度，生成式摘要模型也采用这种评估指标。但是，Rouge分数忽略了生成式摘要的语言多样性以及文本与摘要的语义相关性，使得基于Rouge分数的评估方法不合理。
技术实现思路
本专利技术提出了一种新型的评估生成式摘要质量的评估方法及排序网络，用于评估生成式摘要，其从摘要的语言流畅性...

【技术保护点】
1.一种用于生成式摘要的评估方法，其步骤包括：/n1)将每一所选文本X通过m个生成式摘要系统，将生成的m个生成式摘要组成摘要候选项Y_all＝{Y_1,Y_2,…，Y_m}；将文本X及其真实摘要Y′和摘要候选项Y_all一一配对，生成一三元组(X，Y′，Y_all)作为训练集的一样本；其中，Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要；/n2)将所述训练集通过训练好的语言模型得到每一样本的生成式摘要的摘要语言流畅度Score_1，将所述训练集通过训练好的相似度模型得到每一样本的生成式摘要与文本的相似度Score_2，将所述训练集通过训练好的原文信息量模型得到每一样本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4；/n3)基于所述训练集中样本的真实摘要，选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重；/n4)对于一待生成摘要的文本a，生成该文本a的多个摘要，并计算每一摘要的摘要语言流畅度Score_1、摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现...

【技术特征摘要】
1.一种用于生成式摘要的评估方法，其步骤包括：
1)将每一所选文本X通过m个生成式摘要系统，将生成的m个生成式摘要组成摘要候选项Y_all＝{Y_1,Y_2,…，Y_m}；将文本X及其真实摘要Y′和摘要候选项Y_all一一配对，生成一三元组(X，Y′，Y_all)作为训练集的一样本；其中，Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要；
2)将所述训练集通过训练好的语言模型得到每一样本的生成式摘要的摘要语言流畅度Score_1，将所述训练集通过训练好的相似度模型得到每一样本的生成式摘要与文本的相似度Score_2，将所述训练集通过训练好的原文信息量模型得到每一样本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4；
3)基于所述训练集中样本的真实摘要，选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重；
4)对于一待生成摘要的文本a，生成该文本a的多个摘要，并计算每一摘要的摘要语言流畅度Score_1、摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4，然后根据步骤3)确定的权重加权计算该文本a各摘要的摘要分数，确定该文本a各摘要的评估结果。

2.如权利要求1所述的方法，其特征在于，通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重。

3.如权利要求1所述的方法，其特征在于，生成摘要系统包括：Seq2Seq+Attention机制的模型，基于强化学习的生成模型和基于生成对抗网络的摘要模型。

4.如权利要求1所述的方法，其特征在于，使用统计语言模型n格语言模型算法评估摘要的语言流畅度Score_1。

5.如权利要求1所述的方法，其特征在于，计算生成式摘要与文本的相似度Score_2的方法为：设文本X由n个词组成，表示为x1,x2,···,xn，文本X的生成式摘要由m个词组成，表示为y1,y2,···,ym；其中xi表示文本X中第i个词的词向量，yj表示文本X的生成式摘要中第j个词的词向量，文本X的向量Xw和文本X的生成式摘要的向量Yw分别表示为：利用余弦相似度来衡量两个句子的空间距离，即：其中t表示词向量的第t维；对sim(Xw,Yw)归一化得到文...

【专利技术属性】
技术研发人员：曹亚男，徐灏，尚燕敏，刘燕兵，谭建龙，郭莉，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人