The application discloses a text object classification method and device, belonging to the Internet technology field. The method includes: acquiring node features of layer I nodes, which are mosaic features of type I and type II features, or, type II features, which are extracted by artificial feature engineering, type II features by machine learning, and each node of layer I+1 corresponds to a neural network. The node features of each layer I node of the same layer I + 1 node are input into the neural network corresponding to the node of layer I + 1 to get the second type of features of the node of layer I + 1; when the node of layer I + 1 is the root node, the node features of the root node are input into the classifier, and the class label of the text object is output through the classifier. The application solves the problem that the feature extracted by neural network is one-sided, and then affects the accuracy of classification results. It can extract more comprehensive features and improve the accuracy of classification results.
【技术实现步骤摘要】
文本对象分类方法及装置
本申请涉及互联网
,特别涉及一种文本对象分类方法及装置。
技术介绍
网页分类是指根据网页文档的内容将网页划分为不同的类别,并添加对应的类别标签。网页文档是用超文本标记语言(英文:HyperTextMarkupLanguage,简称:HTML)描述的文本,类别标签的名字通常对应具体的应用场景,比如:新闻网页的类别标签可能是“国内”、“国际”、“政治、“经济”等,敏感网页的类别标签可能是“包含敏感信息”和“不包含敏感信息”。在对网页进行分类时,通常将网页看做一个文本,然后用词向量来表示文本中的每个词,基于词向量表示,通过神经网络对文本进行编码,得到文本的特征,然后将文本的特征输入到分类器中进行分类,得到文本所属的类别标签。但通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性。
技术实现思路
为了解决现有技术中通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性的问题,本申请实施例提供了一种文本对象分类方法及装置。所述技术方案如下:第一方面,提供了一种文本对象分类方法,该文本对象具有树结构,该树结构中包括n层节点,树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分,n和i为正整数,1≤i<n,最底层的节点被称为第一层节点,最顶层的节点被称为根节点,根节点的数量为一个,通过人工特征工程提取到的特征被称为第一类特征,通过机器学习到的特征被称为第二类特征;第i+1层节点在提取节点特征时,首先获取属于该第i+1层节点的各个第i层节点的节点特征,该节点 ...
【技术保护点】
1.一种文本对象分类方法,其特征在于,所述文本对象具有n层节点的树结构,所述树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分,n和i为正整数,1≤i<n,所述方法包括:获取第i层节点的节点特征,所述节点特征为:第一类特征和第二类特征拼接后得到的拼接特征,或者,所述第二类特征;将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征;当所述第i+1层节点是根节点时,将所述根节点的所述节点特征输入分类器,通过所述分类器输出所述文本对象的类别标签,所述树结构中的最顶层的节点为所述根节点;其中,所述第一类特征是通过人工特征工程提取的特征,所述第二类特征是通过机器学习到的特征,每个所述第i+1层节点对应有各自的所述神经网络,存在至少一个节点的节点特征是所述拼接特征。
【技术特征摘要】
1.一种文本对象分类方法,其特征在于,所述文本对象具有n层节点的树结构,所述树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分,n和i为正整数,1≤i<n,所述方法包括:获取第i层节点的节点特征,所述节点特征为:第一类特征和第二类特征拼接后得到的拼接特征,或者,所述第二类特征;将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征;当所述第i+1层节点是根节点时,将所述根节点的所述节点特征输入分类器,通过所述分类器输出所述文本对象的类别标签,所述树结构中的最顶层的节点为所述根节点;其中,所述第一类特征是通过人工特征工程提取的特征,所述第二类特征是通过机器学习到的特征,每个所述第i+1层节点对应有各自的所述神经网络,存在至少一个节点的节点特征是所述拼接特征。2.根据权利要求1所述的方法,其特征在于,存在位于至少一个路径和/或至少一层的节点的所述节点特征是所述拼接特征。3.根据权利要求1所述的方法,其特征在于,同一类型的所述节点所对应的所述神经网络是相同的,不同类型的所述节点所对应的所述神经网络不同或相同。4.根据权利要求1至3任一所述的方法,其特征在于,与所述第i+1层节点对应的所述神经网络是第一类神经网络;所述将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征,包括:将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入与所述第i+1层节点对应的所述第一类神经网络;通过所述第一类神经网络对各个所述第i层节点的节点特征进行多级拼接,得到所述第i+1层节点的第二类特征。5.根据权利要求1至3任一所述的方法,其特征在于,与所述第i+1层节点对应的所述神经网络是第二类神经网络;所述第i+1层节点包括m个所述第i层节点,最左侧为第1个第i层节点,最右侧为第m个第i层节点,m为正整数,m>1;所述将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征,包括:将m个所述第i层节点的节点特征从左往右依次输入所述第二类神经网络,得到第一特征;将m个所述第i层节点的节点特征从右往左依次输入所述第二类神经网络,得到第二特征;将所述第一特征和所述第二特征进行拼接,得到所述第i+1层节点的第二类特征。6.根据权利要求1至5任一所述的方法,其特征在于,所述当所述第i+1层节点是所述根节点时,将所述根节点的所述节点特征输入分类器,通过所述分类器输出所述文本对象的类别标签,包括:当所述第i+1层节点是所述根节点时,将所述根节点的所述节点特征输入所述分类器,得到所述文本对象属于各个类别标签的概率值;将概率值最大的类别标签确定为所述文本对象对应的类别标签。7.根据权利要求1至6任一所述的方法,其特征在于,所述分类器和所述神经网络的训练过程包括如下步骤:初始化所述分类器和所述神经网络的训练参数;获取...
【专利技术属性】
技术研发人员:刘晓华,李航,涂兆鹏,严哲峰,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。