特征抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29586946 阅读:24 留言:0更新日期:2021-08-06 19:46
本发明专利技术提供一种特征抽取方法、装置、电子设备及存储介质,涉及数据挖掘技术领域,可以提高主题与句子间相关度评分的准确性。该方法包括:确定语料库文本的M个主题,并根据所述语料库文本确定与M个主题对应的M个候选句集合,一个主题对应一个候选句集合;对M个主题和M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量;根据M个第一连续特征向量和(M*N)个第二连续特征向量,采用目标特征抽取器确定M个候选句集合中的(M*N)个句子的单头特征,并根据(M*N)个句子的单头特征确定(M*N)个句子抽取特征。

【技术实现步骤摘要】
特征抽取方法、装置、电子设备及存储介质
本专利技术涉及数据挖掘
,尤其涉及一种特征抽取方法、装置、电子设备及存储介质。
技术介绍
潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型是一种能够有效挖掘和发现文本数据中潜在语义主题的非监督学习方法。LDA模型的发现结果通常是主题词列表,一般用户很难通过阅读主题词表来了解主题的发现结果,因此通常会采用从语料库文本中抽取句子的方法来对主题进行摘要标记。在此过程中,需要对候选句子根据给定主题进行相关度评分,继而选取评分较高的句子组成摘要文本,作为主题的标记内容,以帮助用户了解主题的发现结果。然而,现有技术中的评分方法,评分的准确率较低,不能满足用户的需求。
技术实现思路
本专利技术提供一种特征抽取方法、装置、电子设备及存储介质,用以解决现有技术中评分方法的准确率较低的缺陷。本专利技术提供一种特征抽取方法,包括:确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。根据本专利技术提供的一种特征抽取方法,所述根据所述语料库文本确定与所述M个主题对应的M个候选句集合,包括:将所述语料库文本分割为多个句子;分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。根据本专利技术提供的一种特征抽取方法,所述将目标主题转化为第一连续特征向量,包括:将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度;根据一个类别的主题词在所述目标主题中的边缘分布概率,确定所述一个类别的主题词对应维度的初始值;对所有维度的初始值进行归一化处理;根据所述一个类别的主题词的边缘分布概率,对所述一个类别的主题词对应维度上的权重进行加权处理,得到所述第一连续特征向量的维度值。根据本专利技术提供的一种特征抽取方法,所述将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,包括:通过预训练语言模型对所述N个句子进行上下文嵌入编码,得到所述N个第二连续特征向量。根据本专利技术提供的一种特征抽取方法,所述方法还包括:采用线性分类器对所述句子抽取特征进行处理,得到所述目标主题与所述目标主题对应的N个句子间的相关度预测值。本专利技术还提供一种特征抽取装置,包括:确定模块、转化模块和抽取模块。所述确定模块,用于确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;所述转化模块,用于对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;所述抽取模块,用于根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。根据本专利技术提供的一种特征抽取装置,所述确定模块,具体用于将所述语料库文本分割为多个句子;分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。根据本专利技术提供的一种特征抽取装置,所述转化模块,具体用于:将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度;根据一个类别的主题词在所述目标主题中的边缘分布概率,确定所述一个类别的主题词对应维度的初始值;对所有维度的初始值进行归一化处理;根据所述一个类别的主题词的边缘分布概率,对所述一个类别的主题词对应维度上的权重进行加权处理,得到所述第一连续特征向量的维度值。根据本专利技术提供的一种特征抽取装置,所述转化模块,具体用于:通过预训练语言模型对所述N个句子进行上下文嵌入编码,得到所述N个第二连续特征向量。根据本专利技术提供的一种特征抽取装置,所述装置还包括预测单元;所述预测单元,用于采用线性分类器对所述句子抽取特征进行处理,得到所述目标主题与所述目标主题对应的N个句子间的相关度预测值。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述特征抽取方法中的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述特征抽取方法中的步骤。本专利技术提供的一种特征抽取方法、装置、电子设备及存储介质,可以确定语料库文本的M个主题,并根据语料库文本确定与该M个主题对应的M个候选句集合,再将M个主题转化为M个第一连续特征向量,将M个候选句集合中的句子转化为(M*N)个第二连续特征向量,然后通过目标特征抽取器得到(M*N)个句子的单头特征,最后,根据该(M*N)个句子的单头特征得到(M*N)个句子抽取特征。通过该方案,由于可以确定与每个主题相关的候选句集合,还可以通过不同的特征抽取器对句子的特征进行抽取,因此可以提高句子抽取特征与主题之间的紧密性,从而提高主题与句子间相关度评分的准确性。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的特征抽取方法的流程示意图之一;本文档来自技高网...

【技术保护点】
1.一种特征抽取方法,其特征在于,包括:/n确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;/n对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;/n根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;/n其中,M、N为正整数,且M小于N。/n

【技术特征摘要】
1.一种特征抽取方法,其特征在于,包括:
确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;
对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;
根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;
其中,M、N为正整数,且M小于N。


2.根据权利要求1所述的特征抽取方法,其特征在于,所述根据所述语料库文本确定与所述M个主题对应的M个候选句集合,包括:
将所述语料库文本分割为多个句子;
分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;
所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。


3.根据权利要求1所述的特征抽取方法,其特征在于,所述将目标主题转化为第一连续特征向量,包括:
将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度;
根据一个类别的主题词在所述目标主题中的边缘分布概率,确定所述一个类别的主题词对应维度的初始值;
对所有维度的初始值进行归一化处理;
根据所述一个类别的主题词的边缘分布概率,对所述一个类别的主题词对应维度上的权重进行加权处理,得到所述第一连续特征向量的维度值。


4.根据权利要求1所述的特征抽取方法,其特征在于,所述将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,包括:
通过预训练语言模型对所述N个句子进行上下文嵌入编码,得到所述N个第二连续特征向量。


5.根据权利要求1所述的特征抽...

【专利技术属性】
技术研发人员:陶莎何东彬于丽敏任延昭高万林刘新亮闫鹏飞赵龙
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1