文本特征提取及提取模型优化方法以及介质、装置和设备制造方法及图纸

技术编号：20075109 阅读：35 留言：0更新日期：2019-01-15 00:39

本发明专利技术提供了一种文本特征提取模型的优化方法和文本特征提取方法以及介质、装置和计算设备。该文本特征提取模型的优化方法包括以下步骤：获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵；根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合，得到所述文本数据的第二特征矩阵；当所述第二特征矩阵满足预定条件时，输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息，以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。本发明专利技术提高了文本语义分析和分类等应用任务的准确率和精准度。

Optimizing Method of Text Feature Extraction and Extraction Model and Medium, Device and Equipment

The invention provides an optimization method of a text feature extraction model, a text feature extraction method, a medium, a device and a computing device. The optimization method of this text feature extraction model includes the following steps: obtaining the first feature matrix corresponding to each viewpoint of the text data with multi-view characteristics; fusing the first feature matrix corresponding to each viewpoint according to the network attribute information corresponding to each viewpoint, and obtaining the second feature matrix of the text data; and When the binary feature matrix satisfies the predetermined conditions, the network attribute information corresponding to each view of the optimized text feature extraction model is output, and the second feature matrix is output as the optimized network data matrix of the text feature extraction model. The invention improves the accuracy and accuracy of application tasks such as text semantic analysis and classification.

全部详细技术资料下载

【技术实现步骤摘要】
文本特征提取及提取模型优化方法以及介质、装置和设备
本专利技术的实施方式涉及信息处理
，更具体地，本专利技术的实施方式涉及文本特征提取及提取模型优化方法以及介质、装置和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。目前深度学习的技术方法已经广泛应用到图像、文本处理的各个领域，其中以自编码器、卷积神经网络、循环神经网络、长短期记忆网络为代表的深度学习技术因为非常良好的特征学习能力，被学术界和工业界广泛运用于图像分类、文本语义检测的实际项目中。然而传统的自编码器特征学习技术，忽视了实际数据的多视角特征，只能针对单一的特征进行网络训练和特征学习，因此忽视了数据多视角特征中大量有用的结构化信息。这些多视角特征，各自都携带了数据某一方面的信息特征，比如文本的词性特征具有表示词语词性搭配的规律信息，TF-IDF(termfrequency-inversedocumentfrequency，词频-逆文本频率指数)特征中具有文本中词的重要性的权重信息，判断联系方式存在与否的布尔特征隐含了文本内容的广告推广和邀约意图。这些含有不同方面信息的特征，相互之间具有信息补充的作用，能够更好、更全面地表示一条数据，从而能够帮助后续的文本语义分析分类等应用任务。而传统的自编码器技术只能对特征单个做处理，没有充分考虑文本数据中的多视角特征的关联辅助信息和差异性信息，只能对多视角特征做简单的向量连接作为输入，这样就丢失了很多数据内在的结构信息，因此存在很大的局限性，用传统自编码器技术融合得到的特征...

【技术保护点】
1.一种文本特征提取模型的优化方法，包括以下步骤：获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵；根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合，得到所述文本数据的第二特征矩阵；当所述第二特征矩阵满足预定条件时，输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息，以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。

【技术特征摘要】
1.一种文本特征提取模型的优化方法，包括以下步骤：获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵；根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合，得到所述文本数据的第二特征矩阵；当所述第二特征矩阵满足预定条件时，输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息，以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。2.根据权利要求1所述的方法，其中，在所述根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合，得到所述文本数据的第二特征矩阵之前还包括步骤：根据各个所述视角分别对应的第一特征矩阵得到各个所述视角分别对应的网络属性信息；其中，所述网络属性信息包括：编码网络参数值、编码网络偏置项参数值和解码网络参数值。3.根据权利要求1所述的方法，其中，所述根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合，得到所述文本数据的第二特征矩阵包括：根据各个所述视角分别对应的编码网络参数值、编码网络偏置项参数值和解码网络参数值将各个所述视角分别对应的第一特征矩阵进行融合，根据公式计算得到所述文本数据的第二特征矩阵V，其中，v表示所述视角的编号，取v＝1、2、3...n，Xv表示各个所述视角分别对应的第一特征矩阵，Qv表示解码网络参数，QvT表示解码网络参数的转置矩阵，V′表示所述网络数据矩阵，表示第一参数，ρ为经验参数，取ρ＝0.5，M-＝(|M|-M)/2，表示第二参数，M+＝(|M|+M)/2，表示第三参数，表示第四参数，表示第五参数。4.根据权利要求1所述的方法，在输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息之前包括步骤：根据所述第二特征矩阵得到解码网络参数重建误差函数；判断所述解码网络参数重建误差函数是否收敛。5.根据权利要求4所述的方法，其中，所述判断所述解码网络参...

【专利技术属性】
技术研发人员：方正，周森，朱浩齐，杨卫强，林洋港，李净，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人