文本特征提取及提取模型优化方法以及介质、装置和设备制造方法及图纸

技术编号:20075109 阅读:35 留言:0更新日期:2019-01-15 00:39
本发明专利技术提供了一种文本特征提取模型的优化方法和文本特征提取方法以及介质、装置和计算设备。该文本特征提取模型的优化方法包括以下步骤:获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵;根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵;当所述第二特征矩阵满足预定条件时,输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息,以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。本发明专利技术提高了文本语义分析和分类等应用任务的准确率和精准度。

Optimizing Method of Text Feature Extraction and Extraction Model and Medium, Device and Equipment

The invention provides an optimization method of a text feature extraction model, a text feature extraction method, a medium, a device and a computing device. The optimization method of this text feature extraction model includes the following steps: obtaining the first feature matrix corresponding to each viewpoint of the text data with multi-view characteristics; fusing the first feature matrix corresponding to each viewpoint according to the network attribute information corresponding to each viewpoint, and obtaining the second feature matrix of the text data; and When the binary feature matrix satisfies the predetermined conditions, the network attribute information corresponding to each view of the optimized text feature extraction model is output, and the second feature matrix is output as the optimized network data matrix of the text feature extraction model. The invention improves the accuracy and accuracy of application tasks such as text semantic analysis and classification.

【技术实现步骤摘要】
文本特征提取及提取模型优化方法以及介质、装置和设备
本专利技术的实施方式涉及信息处理
,更具体地,本专利技术的实施方式涉及文本特征提取及提取模型优化方法以及介质、装置和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。目前深度学习的技术方法已经广泛应用到图像、文本处理的各个领域,其中以自编码器、卷积神经网络、循环神经网络、长短期记忆网络为代表的深度学习技术因为非常良好的特征学习能力,被学术界和工业界广泛运用于图像分类、文本语义检测的实际项目中。然而传统的自编码器特征学习技术,忽视了实际数据的多视角特征,只能针对单一的特征进行网络训练和特征学习,因此忽视了数据多视角特征中大量有用的结构化信息。这些多视角特征,各自都携带了数据某一方面的信息特征,比如文本的词性特征具有表示词语词性搭配的规律信息,TF-IDF(termfrequency-inversedocumentfrequency,词频-逆文本频率指数)特征中具有文本中词的重要性的权重信息,判断联系方式存在与否的布尔特征隐含了文本内容的广告推广和邀约意图。这些含有不同方面信息的特征,相互之间具有信息补充的作用,能够更好、更全面地表示一条数据,从而能够帮助后续的文本语义分析分类等应用任务。而传统的自编码器技术只能对特征单个做处理,没有充分考虑文本数据中的多视角特征的关联辅助信息和差异性信息,只能对多视角特征做简单的向量连接作为输入,这样就丢失了很多数据内在的结构信息,因此存在很大的局限性,用传统自编码器技术融合得到的特征,不能充分利用数据的多视角特征结构来帮助后续的分类、聚类等机器学习任务。而现有的其他一些相似应用的多视角特征融合技术也存在各自一些缺点。Ye在2015年提出了ODAE(OrthogonalDenoisingAutoencoders,正交去早自动编码器)方法,这种技术方法的只适用于特征之间有更多的独立正交结构信息的场景,在训练中强制性地将网络中的一部分系数置为零,而没有考虑并丢失了多视角特征之间的辅助结构信息,因此在多数应用场景下学习得到的特征并非是最优的。Wang提出了针对跨数据域迁移学习多视角特征融合的CoupledMarginalizedAuto-encoders(耦合边缘化自动编码器)技术,该方法忽视了各个多视角特征之间的联系,也没有处理多视角特征在编码网络编码时的特征差异带来的不一致性,而且模型学习得到的特征表示也不具备非负性所具有可解释性。现有文献中的许多多视角特征学习方法都是基于矩阵分解技术,或者特征子空间学习技术。Gao等人提出了通过联合非负矩阵分解的多视图聚类技术用来融合多视角特征。该技术充分利用了非负矩阵分解中数据矩阵和特征矩阵非负可解释的优势,通过各个视角数据矩阵的分解共享统一的数据低维空间矩阵,来进一步挖掘多视角特征之间的相关信息。然而该技术缺少对学习得到的特征做有力的低秩结构约束,在多个矩阵分解过程中容易受多视角特征各自带来的不一致性噪声的干扰,结果得到特征中不可避免地含有噪声和错误。Zhang等人提出了LT-MSC(Low-ranktensorconstrainedmultiviewsubspaceclustering,低秩张量约束多视图子空间聚类)的针对多视角特征的低秩子空间学习技术,该方法很好的挖掘和利用了多视角特征之间的结构,提升了融合后的特征的表示能力。然而该技术方法,没有利用自编码器的编码网络来消除不同特征之间的差异性,训练学习得到的特征也缺乏非负可解释性。此外该方法只能以直推式的形式批量训练得到需要的数据特征,不能在新数据到来的时候,直接用模型参数归纳式地得到数据融合后的特征。
技术实现思路
为此,非常需要一种改进的文本特征提取方法,以至少能够结合数据多视角特征中大量有用的结构化信息来进行文本特征的提取。在本上下文中,本专利技术的实施方式期望提供一种文本特征提取及提取模型优化方法以及介质、装置和设备。在本专利技术实施方式的第一方面中,提供了一种文本特征提取模型的优化方法,包括:获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵;根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵;当所述第二特征矩阵满足预定条件时,输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息,以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。在本专利技术的第一个实施例中,该方法包括以下步骤:根据各个所述视角分别对应的第一特征矩阵得到各个所述视角分别对应的网络属性信息;其中,所述网络属性信息包括:编码网络参数值、编码网络偏置项参数值和解码网络参数值。在本专利技术的第二实施例中,该方法还包括以下步骤:根据所述文本数据的第二特征矩阵对所述文本特征提取模型网络参数信息进行更新。在本专利技术的第三个实施例中,该方法还包括以下步骤:根据所述第二特征矩阵得到解码网络参数重建误差函数;判断所述解码网络参数重建误差函数是否收敛。在本专利技术的第四个实施例中,该方法还包括以下:当所述解码网络参数重建误差函数收敛或迭代次数大于或等于第一阈值时,根据所述第二特征矩阵得到整体重建误差函数,判断所述整体重建误差函数是否收敛。在本专利技术实施方式的第二方面中,提供了一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现上述文本特征提取模型的优化方法。在本专利技术实施方式的第三方面中,提供了一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现上述文本特征提取模型的优化方法。在本专利技术实施方式的第四方面中,提供了一种文本特征提取方法,包括:获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵;根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵;根据所述第二特征矩阵提取所述文本数据的文本特征。在本专利技术的第一个实施例中,该方法包括以下步骤:根据各个所述视角分别对应的第一特征矩阵得到各个所述视角分别对应的网络属性信息;其中,所述网络属性信息包括:编码网络参数值、编码网络偏置项参数值和解码网络参数值。在本专利技术的第二实施例中,该方法还包括以下步骤:根据各个所述视角分别对应的第一特征矩阵得到各个所述视角分别对应的编码网络参数值;根据各个所述视角分别对应的第一特征矩阵和所述编码网络参数值得到各个所述视角分别对应的编码网络偏置项参数值。在本专利技术的第三个实施例中,该方法还包括以下步骤:根据各个所述视角分别对应的第一特征矩阵得到各个所述视角分别对应的解码网络参数值。在本专利技术实施方式的第五方面中,提供了一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现上述文本特征提取方法。在本专利技术实施方式的第六方面中,提供了一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现上述文本特征提取方法。在本专利技术实施方式的第七个方面中,提供了一种文本特征提取模型的优化装置,包括:特征矩阵获取模块,被配置为获取具有多视角特征的文本数据的各个所述视角分别对应的第一本文档来自技高网
...

【技术保护点】
1.一种文本特征提取模型的优化方法,包括以下步骤:获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵;根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵;当所述第二特征矩阵满足预定条件时,输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息,以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。

【技术特征摘要】
1.一种文本特征提取模型的优化方法,包括以下步骤:获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵;根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵;当所述第二特征矩阵满足预定条件时,输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息,以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。2.根据权利要求1所述的方法,其中,在所述根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵之前还包括步骤:根据各个所述视角分别对应的第一特征矩阵得到各个所述视角分别对应的网络属性信息;其中,所述网络属性信息包括:编码网络参数值、编码网络偏置项参数值和解码网络参数值。3.根据权利要求1所述的方法,其中,所述根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵包括:根据各个所述视角分别对应的编码网络参数值、编码网络偏置项参数值和解码网络参数值将各个所述视角分别对应的第一特征矩阵进行融合,根据公式计算得到所述文本数据的第二特征矩阵V,其中,v表示所述视角的编号,取v=1、2、3...n,Xv表示各个所述视角分别对应的第一特征矩阵,Qv表示解码网络参数,QvT表示解码网络参数的转置矩阵,V′表示所述网络数据矩阵,表示第一参数,ρ为经验参数,取ρ=0.5,M-=(|M|-M)/2,表示第二参数,M+=(|M|+M)/2,表示第三参数,表示第四参数,表示第五参数。4.根据权利要求1所述的方法,在输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息之前包括步骤:根据所述第二特征矩阵得到解码网络参数重建误差函数;判断所述解码网络参数重建误差函数是否收敛。5.根据权利要求4所述的方法,其中,所述判断所述解码网络参...

【专利技术属性】
技术研发人员:方正周森朱浩齐杨卫强林洋港李净
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1