一种基于多粒度特征的文本生成评价方法技术

技术编号:31793060 阅读:17 留言:0更新日期:2022-01-08 10:52
本发明专利技术涉及一种基于多粒度特征的文本生成评价方法。为了获取不同粒度特征的语义表示,本发明专利技术首先采用MBERT得到参考句与生成句的子词序列并进行向量表征;基于此,根据构成音节与词组的子词组合,结合不同子词语义向量表征得到音节语义向量表征以及词组语义向量表征;其次,采用贪婪匹配分别对参考句与生成句不同粒度下的语义特征向量进行最大余弦相似度计算,使模型在多个粒度上考虑两个句子间的语义相关关系;最后,结合多粒度特征对生成句打分。本发明专利技术从子词、音节、词组三个粒度考虑,更大化的包容不同字词结构之间的差异性,能够更准确评估生成系统模型的好坏,同时也能有效引导生成模型提升性能。有效引导生成模型提升性能。有效引导生成模型提升性能。

【技术实现步骤摘要】
一种基于多粒度特征的文本生成评价方法


[0001]本专利技术涉及一种基于多粒度特征的文本生成评价方法,属于自然语言处理


技术介绍

[0002]机器翻译、文本摘要等生成任务得到了广泛的研究,取得了令人瞩目的成就,但针对这类任务的生成文本质量评价仍是一个难点问题。一个与人类评价相关度高的自动评价指标,不仅对准确评估生成系统模型的好坏起到了至关重要的作用,而且能够有效引导生成模型提升性能。
[0003]文本生成评价可以看作一个计算生成句和标准参考句之间相似度的任务,可分为基于统计的方法和基于语义相似度的方法两类。基于统计的方法一般是计算生成句和参考句之间的不同粒度语义单元的共现程度来评价模型性能,虽然基于统计的方法能够很好的表征句子之间的重叠度,但是缺乏对句子深层语义的建模。常出现两个句子语义相近,但是重叠的词很少,限制了词汇和成分多样性。
[0004]近年来,基于预训练语言模型的语义相似度评价方法很多,其基本的思想是利用预训练语言模型来提取语义特征,基于此进行语义匹配。如Zhang等人提出BERTScore,基于预训练语言模型将参考句与生成句进行子词切分,将子词序列输入预训练语言模型得到子词语义向量表征,采用贪婪匹配计算参考句与生成句子词语义向量表征间余弦相似度,并累加子词最大余弦相似度得分。但在越南语、泰语等存在大量黏着语素的语言中多数子词并不具有完整的语义,基于子词粒度的对应关系不能很好的反映语义之间的相似关系。在此基础上,本专利在MBERT进行子词语义表征的基础上,对音节、词组等能更完整表达语义的单位进行语义表征,采用多粒度特征匹配来评价生成句与参考句之间的相似性。本专利技术从子词、音节、词组三个粒度考虑,更大化的包容不同字词结构之间的差异性,进一步增强基于子词语义特征匹配的自动评价方法。

技术实现思路

[0005]本专利技术提供了一种基于多粒度特征的文本生成评价方法,以用于解决传统基于统计的评价方法中存在的词汇多样性评价能力弱的问题,以及基于子词粒度深度语义匹配的评价方法不能很好的反映生成句与参考句间的语义关系的问题。
[0006]本专利技术的技术方案是:一种基于多粒度特征的文本生成评价方法,所述一种基于多粒度特征的文本生成评价方法的具体步骤如下:
[0007]Step1、从互联网采集数据,对数据进行预处理,构造文本生成测评任务数据集;所述文本生成测评任务数据集数据格式为:参考句

生成句,并对数据集进行人工评价;
[0008]Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列E
x
与生成句子词序列E
Y
,以及参考句子词序列语义向量表征E
X
与生成句子词序列语义向量表征E
Y

[0009]Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列Z
X
与生成句音节序列Z
Y
,并结合Step2,得到参考句音节序列语义向量表征Z
X
与生成句音节序列语义向量表征Z
Y

[0010]Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列W
X
与生成句词组序列W
Y
,并结合Step3,得到参考句词组序列语义向量表征W
X
与生成句词组序列语义向量表征W
Y

[0011]Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及F
E
值;
[0012]Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及F
Z
值;
[0013]Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及F
W
值;
[0014]Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。
[0015]作为本专利技术的优选方案,所述步骤Step1的具体步骤为:
[0016]Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;
[0017]Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要—中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;
[0018]Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分(1最差,5最好)。
[0019]作为本专利技术的优选方案,所述步骤Step1.1的具体步骤:
[0020]Step1.1.1、过滤越南语、泰语、中文数据少于10个字符的句子:
[0021]Step1.1.2、过滤句子中的特殊字符;
[0022]Step1.1.3、并在每个语言中各挑出200个句子,作为越南语/泰语/中文参考句;
[0023]Step1.1.4、将参考句,利用谷歌翻译模型进行回译(将A语言的正向翻译成B,在将B反向翻译成A)的方式,反向翻译得到目标语言生成句。
[0024]作为本专利技术的优选方案,所述步骤Step1.2的具体步骤:
[0025]Step1.2.1、从LCST抽取200个摘要对,数据格式为:中文摘要—中文文档;
[0026]Step1.2.2、将中文摘要翻译为越南语摘要,作为越南语参考摘要;
[0027]Step1.2.3、方法一:跨语言摘要模型采用传统的基线方法先摘要后翻译(ST),将中文文档输入LexRank(无监督的抽取式摘要模型),得到中文生成摘要;在将中文生成摘要输入谷歌翻译模型,得到越南语生成摘要;
[0028]Step1.2.4、方法二:跨语言摘要模型采用传统的基线方法先翻译后摘要(TS),将中文摘要与文档采用谷歌翻译模型翻译成越南语后,输入LexRank,得到越南语生成摘要。
[0029]作为本专利技术的优选方案,所述步骤Step2的具体步骤为:
[0030]Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列E
x
={e
x1
,e
x2
,e
x3
,

,e
xn
}与生成句子词序列E
Y
={e
y1
,e本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度特征的文本生成评价方法,其特征在于:所述基于多粒度特征的文本生成评价方法具体步骤如下:Step1、从互联网采集数据,对数据进行预处理,构造文本生成测评任务数据集;所述文本生成测评任务数据集数据格式为:参考句

生成句,并对数据集进行人工评价;Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列E
x
与生成句子词序列E
Y
,以及参考句子词序列语义向量表征E
X
与生成句子词序列语义向量表征E
Y
;Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列Z
X
与生成句音节序列Z
Y
,并结合Step2,得到参考句音节序列语义向量表征Z
X
与生成句音节序列语义向量表征Z
Y
;Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列W
X
与生成句词组序列W
Y
,并结合Step3,得到参考句词组序列语义向量表征W
X
与生成句词组序列语义向量表征W
Y
;Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及F
E
值;Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及F
Z
值;Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及F
W
值;Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。2.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要—中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分。3.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step2的具体步骤为:Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列E
x
={e
x1
,e
x2
,e
x3
,

,e
xn
}与生成句子词序列E
Y
={e
y1
,e
y2
,e
y3


,e
ym
},其中,e
xn
表示参考句X中第n个子词;e
ym
表示生成句Y中第m个子词;Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列E
x
={e
x1
,e
x2
,e
x3


,e
xn
},e
xn
表示参考句X中第n个子词;{e
x1
,e
x2
,e
x3


,e
xn
}=WordPiece(X)
ꢀꢀꢀꢀꢀ
(1)其中,WordPiece表示采用WordPiece模块对句子进行子词切分;Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列E
Y
={e
y1
,e
y2
,e
y3
,

,e
ym
},e
ym
表示生成句Y中第m个子词;
{e
y1
,e
y2
,e
y3
,

,e
ym
}=WordPiece(Y)
ꢀꢀꢀꢀ
(2)其中,WordPiece表示采用WordPiece模块对句子进行子词切分;Step2.4、将得到的参考句子词序列E
x
输入MBERT模型,对其进行上下文嵌入得到参考句子词序列语义向量表征E
X
={e
xcls
,e
x1
,e
x2
,e
x3
,

,e
xn
,e
xsep
},e
xn
表示参考句X中第n个子词的向量表征;{e
xcls
,e
x1
,e
x2
,e
x3
,

,e
xn
,e
xsep
}=MBERT{[cls],e
x1
,e
x2
,e
x3
,

,e
xn
,[sep]}
ꢀꢀꢀꢀ
(3)其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;Step2.5、将得到的生成句子词序列E
Y
输入MBERT模型,对其进行上下文嵌入得到生成句的子词序列语义向量表征E
Y
={e
ycls
,e
y1
,e
y2
,e
y3
,

,e
ym
,e
ysep
},e
ym
表示生成句Y中第m个子词的向量表征;{e
ycls
,e
y1
,e
y2
,e
y3
,

,e
ym
,e
ysep
}=MBERT{[cls],e
y1
,e...

【专利技术属性】
技术研发人员:赖华高玉梦余正涛黄于欣相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1