训练词权重模型及提取核心词的方法、装置、设备和介质制造方法及图纸

技术编号:30029595 阅读:14 留言:0更新日期:2021-09-15 10:18
本申请涉及计算机技术领域,尤其涉及训练词权重模型及提取核心词的方法、装置、设备和介质,用以提高核心词提取的准确率。方法包括:从多媒体内容中获取训练样本数据集;根据训练样本数据集对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型;每轮迭代训练过程为:从训练样本数据集中选取训练样本,将训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得各正核心词作为样本文本的核心词的第一概率值,各负核心词作为样本文本的核心词的第二概率值;根据第一概率值,第二概率值和标签间的差异,调整未训练的词权重模型的网络参数。本申请基于正负核心词语对对词权重模型进行训练,有利于提高核心词提取的准确率。心词提取的准确率。心词提取的准确率。

【技术实现步骤摘要】
训练词权重模型及提取核心词的方法、装置、设备和介质


[0001]本申请涉及计算机
,尤其涉及训练词权重模型及提取核心词的方法、装置、设备和介质。

技术介绍

[0002]标题词权重任务(term-weights)是提取句子核心语义成分,消除冗余成分的影响的主要方式。该任务主要目的是通过理解句子语义给予每个词语权重值,从而区别出句子成分主次。
[0003]相关技术中的词权重任务大多采用统计和文本分类两大类方式完成,其中统计为无监督方式,代表方式为TF-IDF(term frequency

inverse document frequency,词频逆文本频率指数)、MI(mutual information,互信息),文本分类为有监督方式,常见的是分类模型。然而,基于统计的方式无法将词语和句子具体的语义建立联系。而基于分类的词权重模型在差异化词权重方面做得并不够好。因而,相关技术中的词权重任务核心成分提取的准确率不高。

技术实现思路

[0004]本申请实施例提供一种训练词权重模型及提取核心词的方法、装置、设备和介质,用以提高核心词提取的准确率。
[0005]本申请实施例提供的一种训练词权重模型的方法,所述词权重模型用于预测目标文本中各个词语的词权重值,包括:
[0006]从多媒体内容中获取训练样本数据集,所述训练样本数据集中的训练样本包括样本文本,以及对所述样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,所述正负核心词语对包括一个正核心词和一个负核心词,所述样本文本为描述所述多媒体内容的内容特征的句子,所述正核心词为描述所述多媒体内容的核心词,所述负核心词为描述所述多媒体内容的非核心词;
[0007]根据所述训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取所述目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:
[0008]从所述训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的各个正核心词作为所述样本文本的核心词的第一概率值,以及各个负核心词作为所述样本文本的核心词的第二概率值;
[0009]根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整。
[0010]本申请实施例提供的一种提取核心词的方法,包括:
[0011]对目标文本进行分词处理,得到至少一个词语,其中所述目标文本为描述待处理
的多媒体内容的内容特征的句子;
[0012]分别将分词得到的各个词语与所述目标文本输入所述已训练的词权重模型,基于所述已训练的词权重模型预测得到所述目标文本中各个词语词权重值,其中所述已训练的词权重模型为通过上述任一项所述的训练词权重模型的方法训练得到的;
[0013]基于各个词语对应的词权重值分析得到所述目标文本中的核心词,以作为描述所述待处理的多媒体内容的核心词。
[0014]本申请实施例提供的一种训练词权重模型的装置,所述词权重模型用于预测目标文本中各个词语的词权重值,包括:
[0015]获取单元,用于从多媒体内容中获取训练样本数据集,所述训练样本数据集中的训练样本包括样本文本,以及对所述样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,所述正负核心词语对包括一个正核心词和一个负核心词,所述样本文本为描述所述多媒体内容的内容特征的句子,所述正核心词为描述所述多媒体内容的核心词,所述负核心词为描述所述多媒体内容的非核心词;
[0016]训练单元,用于根据所述训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取所述目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:
[0017]从所述训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的各个正核心词作为所述样本文本的核心词的第一概率值,以及各个负核心词作为所述样本文本的核心词的第二概率值;
[0018]根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整。
[0019]可选的,所述获取单元具体用于:
[0020]获取用于描述所述多媒体内容的内容特征的多个样本文本,分别对各个样本文本进行分词处理,获得对各个样本文本进行分词得到的多个词语;
[0021]对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词;
[0022]对于任意一个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将所述正核心词和所述负核心词组成一对正负核心词语对;
[0023]对于任意一个样本文本,将所述样本文本,以及针对所述样本文本的至少一对正负核心词语对组合作为一个训练样本,由所有样本文本构建得到的训练样本组合形成所述训练样本数据集,其中,包含同一样本文本的不同训练样本中的正负核心词语对不同。
[0024]可选的,所述获取单元具体用于:
[0025]对于同一样本文本分词得到的各个词语,基于预测得到的各个词语对应的词权重值对各个词语进行划分,将词权重值大于预设阈值的词语作为核心词,将剩余的词语作为非核心词;或者,根据词权重值对各个词语进行排序,将词权重值排序在预设次序范围内的词语作为核心词,将剩余的词语作为非核心词。
[0026]可选的,所述训练单元具体用于:
[0027]基于各个第一概率值以及各个第二概率值计算得到针对词权重模型的最大间隔损失函数;
[0028]基于所述最大间隔损失函数对所述未训练的词权重模型的网络参数进行调整,其中,词权重模型中的两个特征融合层的网络参数相同。
[0029]可选的,所述最大间隔损失函数为铰链损失;所述训练样本包括一对已标注标签的正负核心词语对时,针对词权重模型的最大间隔损失函数的计算公式如下:
[0030][0031]其中,λ为大于0的超参数,n为包含所述样本文本的训练样本的总数量,pos_scor
i
为第i.个训练样本中正核心词的第一概率值,neg_score为第i个训练样本中负核心词的第二概率值,i的取值为1~n。
[0032]本申请实施例提供的一种提取核心词的装置,包括:
[0033]文本处理单元,用于对目标文本进行分词处理,得到至少一个词语,其中所述目标文本为描述待处理的多媒体内容的内容特征的句子;
[0034]预测单元,用于分别将分词得到的各个词语与所述目标文本输入所述已训练的词权重模型,基于所述已训练的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练词权重模型的方法,其特征在于,所述词权重模型用于预测目标文本中各个词语的词权重值,该方法包括:从多媒体内容中获取训练样本数据集,所述训练样本数据集中的训练样本包括样本文本,以及对所述样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,所述正负核心词语对包括一个正核心词和一个负核心词,所述样本文本为描述所述多媒体内容的内容特征的句子,所述正核心词为描述所述多媒体内容的核心词,所述负核心词为描述所述多媒体内容的非核心词;根据所述训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取所述目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:从所述训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的各个正核心词作为所述样本文本的核心词的第一概率值,以及各个负核心词作为所述样本文本的核心词的第二概率值;根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整。2.如权利要求1所述的方法,其特征在于,词权重模型包括两个编码器和两个特征融合层;所述将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的所述正核心词作为所述样本文本的核心词的第一概率值,以及所述负核心词作为所述样本文本的核心词的第二概率值,具体包括:将所述样本文本输入其中一个编码器,基于编码器对所述样本文本进行编码,得到所述样本文本的文本特征向量,并将所述文本特征向量分别输入两个特征融合层;以及将所述正负核心词语对输入另一个编码器,基于编码器分别对所述正核心词和负核心词进行编码,得到正核心词的正样本特征向量和负核心词的负样本特征向量,并将所述正样本特征向量输入其中一个特征融合层,将所述负样本特征向量输入另一个特征融合层;基于其中一个特征融合层对所述文本特征向量和所述正样本特征向量进行特征融合后,映射得到所述正核心词作为所述样本文本的核心词的第一概率值,以及基于另一个特征融合层对所述文本特征向量和所述负样本特征向量进行特征融合后,映射得到所述负核心词作为所述样本文本的核心词的第二概率值。3.如权利要求2所述的方法,其特征在于,用于对所述样本文本进行编码的编码器为BERT模型,用于对所述正负核心词语对进行编码的编码器为深度神经网络模型。4.如权利要求1所述的方法,其特征在于,所述从多媒体内容中获取训练样本数据集,具体包括:获取用于描述所述多媒体内容的内容特征的多个样本文本,分别对各个样本文本进行分词处理,获得对各个样本文本进行分词得到的多个词语;对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词;对于任意一个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将所述正核心词和所述负核心词组
成一对正负核心词语对;对于任意一个样本文本,将所述样本文本,以及针对所述样本文本的至少一对正负核心词语对组合作为一个训练样本,由所有样本文本构建得到的训练样本组合形成所述训练样本数据集,其中,包含同一样本文本的不同训练样本中的正负核心词语对不同。5.如权利要求4所述的方法,其特征在于,所述对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词,具体包括:对于同一样本文本分词得到的各个词语,基于预测得到的各个词语对应的词权重值对各个词语进行划分,将词权重值大于预设阈值的词语作为核心词,将剩余的词语作为非核心词;或者,根据词权重值对各个词语进行排序,将词权重值排序在预设次序范围内的词语作为核心词,将剩余的词语作为非核心词。6.如权利要求1~5任一项所述的方法,其特征在于,所述根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整,具体包括:基于各个第一概率值以及各个第二概率值计算得到针对词权重模型的最大间隔损失函数;基于所述最大间隔损失函数对所述未训练的词权重模型的网络参数进行调整,其中,词权重模型中的两个特征融合层的网络参数相同。7.如权利要求6所述的方法,其特征在于,所述最大间隔损失函数为铰链损失;所述训练样本包括一对已标注标签的正负核心词语对时,针对词权重模型的最大间隔损失函数的计算公式如下:其中,λ为大于0的超参数,n为包含所述样本文本的训练样本的总数量,pos_scor
i
为第i个训练样本中正核心词的第一概率值,neg_score为第i个训练样本中负核心词的第二概率值,i的...

【专利技术属性】
技术研发人员:黄剑辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1