特征抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：29586946 阅读：24 留言：0更新日期：2021-08-06 19:46

本发明专利技术提供一种特征抽取方法、装置、电子设备及存储介质，涉及数据挖掘技术领域，可以提高主题与句子间相关度评分的准确性。该方法包括：确定语料库文本的M个主题，并根据所述语料库文本确定与M个主题对应的M个候选句集合，一个主题对应一个候选句集合；对M个主题和M个候选句集合进行第一操作，得到M个第一连续特征向量和(M*N)个第二连续特征向量；根据M个第一连续特征向量和(M*N)个第二连续特征向量，采用目标特征抽取器确定M个候选句集合中的(M*N)个句子的单头特征，并根据(M*N)个句子的单头特征确定(M*N)个句子抽取特征。

全部详细技术资料下载

【技术实现步骤摘要】
特征抽取方法、装置、电子设备及存储介质
本专利技术涉及数据挖掘
，尤其涉及一种特征抽取方法、装置、电子设备及存储介质。
技术介绍
潜在狄利克雷分配(LatentDirichletAllocation，LDA)模型是一种能够有效挖掘和发现文本数据中潜在语义主题的非监督学习方法。LDA模型的发现结果通常是主题词列表，一般用户很难通过阅读主题词表来了解主题的发现结果，因此通常会采用从语料库文本中抽取句子的方法来对主题进行摘要标记。在此过程中，需要对候选句子根据给定主题进行相关度评分，继而选取评分较高的句子组成摘要文本，作为主题的标记内容，以帮助用户了解主题的发现结果。然而，现有技术中的评分方法，评分的准确率较低，不能满足用户的需求。
技术实现思路
本专利技术提供一种特征抽取方法、装置、电子设备及存储介质，用以解决现有技术中评分方法的准确率较低的缺陷。本专利技术提供一种特征抽取方法，包括：确定语料库文本的M个主题，并根据所述语料库文本确定与所述M个主题对应的M个候选句集合，一个主题对应一个候选句集合；对所述M个主题和所述M个候选句集合进行第一操作，得到M个第一连续特征向量和(M*N)个第二连续特征向量，所述第一操作包括：将目标主题转化为第一连续特征向量，将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量，所述目标主题为所述M个主题中的任一个；根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量，采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特...

【技术保护点】
1.一种特征抽取方法，其特征在于，包括：/n确定语料库文本的M个主题，并根据所述语料库文本确定与所述M个主题对应的M个候选句集合，一个主题对应一个候选句集合；/n对所述M个主题和所述M个候选句集合进行第一操作，得到M个第一连续特征向量和(M*N)个第二连续特征向量，所述第一操作包括：将目标主题转化为第一连续特征向量，将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量，所述目标主题为所述M个主题中的任一个；/n根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量，采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征，并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征，所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个，所述第一特征抽取器中一个主题对应一个多头自注意力编码器，所述第二特征抽取器中所有主题对应一个多头自注意力编码器；/n其中，M、N为正整数，且M小于N。/n

【技术特征摘要】
1.一种特征抽取方法，其特征在于，包括：
确定语料库文本的M个主题，并根据所述语料库文本确定与所述M个主题对应的M个候选句集合，一个主题对应一个候选句集合；
对所述M个主题和所述M个候选句集合进行第一操作，得到M个第一连续特征向量和(M*N)个第二连续特征向量，所述第一操作包括：将目标主题转化为第一连续特征向量，将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量，所述目标主题为所述M个主题中的任一个；
根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量，采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征，并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征，所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个，所述第一特征抽取器中一个主题对应一个多头自注意力编码器，所述第二特征抽取器中所有主题对应一个多头自注意力编码器；
其中，M、N为正整数，且M小于N。

2.根据权利要求1所述的特征抽取方法，其特征在于，所述根据所述语料库文本确定与所述M个主题对应的M个候选句集合，包括：
将所述语料库文本分割为多个句子；
分别对所述M个主题和所述多个句子执行第二操作，得到所述M个候选句集合；
所述第二操作包括：分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值，得到一个KLD向量；按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。

3.根据权利要求1所述的特征抽取方法，其特征在于，所述将目标主题转化为第一连续特征向量，包括：
将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度；
根据一个类别的主题词在所述目标主题中的边缘分布概率，确定所述一个类别的主题词对应维度的初始值；
对所有维度的初始值进行归一化处理；
根据所述一个类别的主题词的边缘分布概率，对所述一个类别的主题词对应维度上的权重进行加权处理，得到所述第一连续特征向量的维度值。

4.根据权利要求1所述的特征抽取方法，其特征在于，所述将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量，包括：
通过预训练语言模型对所述N个句子进行上下文嵌入编码，得到所述N个第二连续特征向量。

5.根据权利要求1所述的特征抽...

【专利技术属性】
技术研发人员：陶莎，何东彬，于丽敏，任延昭，高万林，刘新亮，闫鹏飞，赵龙，
申请(专利权)人：中国农业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人