【技术实现步骤摘要】
特征提取方法、装置、电子设备和存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种特征提取方法、装置、电子设备和存储介质。
技术介绍
[0002]互操作和互理解是无人系统的发展基础,更好地解析出用户的任务指令乃至内容,才能使无人系统更好地为人类服务,人与人的交互是使用自然语言,双方对语言内容的理解是交互的基础。对人而言,既有对常识背景的了解,也有对当前上下文、任务环境的理解,如何将人的语言转化为机器可识别、可理解的数字序列,这个过程可以称为语义的提取,是实现人机理解的必由过程。现有的人机互理解研究技术,大多针对单一类型数据进行模型优化训练,无法解决海量领域数据的复杂语义表征,难以有效实现人机交互场景下意图互理解。
技术实现思路
[0003]本专利技术提供一种特征提取方法、装置、电子设备和存储介质,用以解决现有的人机互理解研究技术,大多针对单一特性进行模型优化训练,无法解决海量领域数据的复杂语义表征,难以有效实现人机交互场景下意图互理解的问题。
[0004]本专利技术提供了一种特征提取
【技术保护点】
【技术特征摘要】
1.一种特征提取方法,其特征在于,包括:获取待预测数据,对所述待预测数据进行与所述待预测数据的数据类型匹配的预处理,得到所述待预测数据的表示;基于与所述待预测数据的数据类型匹配的注意力机制,对所述待预测数据的表示进行特征提取,得到所述待预测数据的特征向量。2.根据权利要求1所述的特征提取方法,其特征在于,所述待预测数据的数据类型包括以下至少一项:三元组数据类型、文本对数据类型、层次化数据类型和长文本数据类型。3.根据权利要求2所述的特征提取方法,其特征在于,所述对所述待预测数据进行与所述待预测数据的数据类型匹配的预处理,得到所述待预测数据的表示,包括:在所述待预测数据包括三元组数据的情况下,对所述三元组数据中的三种信息进行拼接处理,得到第一序列数据,对所述第一序列数据对应的字向量和段向量进行初始化,得到所述三元组数据的表示;在所述待预测数据包括文本对数据的情况下,对所述文本对数据中的问题文本和回答文本进行拼接处理,得到第二序列数据,对所述第二序列数据对应的字向量、段向量和位置向量进行初始化,得到所述文本对数据的表示;在所述待预测数据包括层次化数据的情况下,基于满二叉树的形式对所述层次化数据进行编码,得到第三序列数据,对所述第三序列数据对应的字向量和位置向量进行初始化,得到所述层次化数据的表示;在所述待预测数据包括长文本数据的情况下,按照段落划分所述长文本数据,针对每个段落进行句子划分,并以句子为单位进行字向量和位置向量的初始化,得到所述长文本数据的表示,将所述长文本数据的表示存储为三维矩阵,其中,所述三维矩阵的第一维表示句子长度,第二维表示段落个数,第三维表示所述长文本数据。4.根据权利要求3所述的特征提取方法,其特征在于,所述基于与所述待预测数据的数据类型匹配的注意力机制,对所述待预测数据的表示进行特征提取,得到所述待预测数据的特征向量,包括:基于稀疏注意力机制,对所述三元组数据的表示、文本对数据的表示和层次化数据的表示进行特征提取,得到第一特征向量,和/或,基于嵌套稀疏注意力机制,对所述长文本数据的表示进行特征提取,得到第二特征向量;基于稀疏注意力机制,对所述第一特征向量和/或第二特征向量进行特征提取,得到所述待预测数据的特征向量...
【专利技术属性】
技术研发人员:吴飞,洪帅,方四安,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。