文本对象分类方法及装置制造方法及图纸

技术编号:19177334 阅读:40 留言:0更新日期:2018-10-17 00:22
本申请公开了一种文本对象分类方法及装置,属于互联网技术领域。所述方法包括:获取第i层节点的节点特征,节点特征为第一类特征和第二类特征拼接后的拼接特征,或者,第二类特征,第一类特征通过人工特征工程提取,第二类特征通过机器学习,每个第i+1层节点对应有神经网络;将属于同一个第i+1层节点的各个第i层节点的节点特征输入第i+1层节点对应的神经网络,得到第i+1层节点的第二类特征;当第i+1层节点是根节点时,将根节点的节点特征输入分类器,通过分类器输出文本对象的类别标签。本申请解决了通过神经网络提取到的特征比较片面,进而影响到分类结果的准确的问题,能够提取更加全面的特征,提高分类结果的准确性。

Text object classification method and device

The application discloses a text object classification method and device, belonging to the Internet technology field. The method includes: acquiring node features of layer I nodes, which are mosaic features of type I and type II features, or, type II features, which are extracted by artificial feature engineering, type II features by machine learning, and each node of layer I+1 corresponds to a neural network. The node features of each layer I node of the same layer I + 1 node are input into the neural network corresponding to the node of layer I + 1 to get the second type of features of the node of layer I + 1; when the node of layer I + 1 is the root node, the node features of the root node are input into the classifier, and the class label of the text object is output through the classifier. The application solves the problem that the feature extracted by neural network is one-sided, and then affects the accuracy of classification results. It can extract more comprehensive features and improve the accuracy of classification results.

【技术实现步骤摘要】
文本对象分类方法及装置
本申请涉及互联网
,特别涉及一种文本对象分类方法及装置。
技术介绍
网页分类是指根据网页文档的内容将网页划分为不同的类别,并添加对应的类别标签。网页文档是用超文本标记语言(英文:HyperTextMarkupLanguage,简称:HTML)描述的文本,类别标签的名字通常对应具体的应用场景,比如:新闻网页的类别标签可能是“国内”、“国际”、“政治、“经济”等,敏感网页的类别标签可能是“包含敏感信息”和“不包含敏感信息”。在对网页进行分类时,通常将网页看做一个文本,然后用词向量来表示文本中的每个词,基于词向量表示,通过神经网络对文本进行编码,得到文本的特征,然后将文本的特征输入到分类器中进行分类,得到文本所属的类别标签。但通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性。
技术实现思路
为了解决现有技术中通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性的问题,本申请实施例提供了一种文本对象分类方法及装置。所述技术方案如下:第一方面,提供了一种文本对象分类方法,该文本对象具有树结构,该树结构中包括n层节点,树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分,n和i为正整数,1≤i<n,最底层的节点被称为第一层节点,最顶层的节点被称为根节点,根节点的数量为一个,通过人工特征工程提取到的特征被称为第一类特征,通过机器学习到的特征被称为第二类特征;第i+1层节点在提取节点特征时,首先获取属于该第i+1层节点的各个第i层节点的节点特征,该节点特征为对应节点的第二类特征或对应节点的第一类特征和第二类特征进行拼接后得到的拼接特征,然后将各个第i层节点的节点特征输入与第i+1层节点对应的神经网络,每个第i+1层节点对应有各自的神经网络,由神经网络输出该第i+1层节点的第二类特征;从树结构的最底层起逐层向上计算出各个节点的节点特征,直到计算出根节点的节点特征后,根节点的节点特征被输入分类器,由分类器输出文本对象的类别标签;其中,在每个节点的节点特征的确定过程中,至少有一个节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征,另外,第i+1层节点还被称为中间节点,第i层节点还被称为是第i+1层节点的孩子节点。通过在提取文本对象的节点特征时,将文本对象的树结构中的至少一个节点的节点特征由第一类特征和第二类特征拼接得到,使得提取文本对象的节点特征中不仅只有通过神经网络得到的第二类特征,同时还融合了通过人工特征工程提取到的第一类特征,使得根节点输出的节点特征能够更加全面的表达出文本对象的特征,解决了相关技术中通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性的问题,达到了提取更加全面的特征,提高分类结果的准确性的效果。另外,通过将同一个第i+1层节点的各个第i层节点的节点特征输入第i+1层节点对应的神经网络中,得到第i+1层节点的第二类特征,使得具有树状结构的文本对象能够逐层计算各个节点的节点特征。另外,由于每个第i+1层节点对应有各自的神经网络,使得神经网络的设计方式更加灵活,能够在树结构的任意节点上将第一类特征和第二类特征进行拼接。在第一方面的第一种可能的实施方式中,在计算各个节点的节点特征时,存在至少一个节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征,或者,存在至少一个路径的节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征,或者,存在至少一层节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征,或者,树结构中的全部节点的节点特征都是拼接特征。当存在部分节点的节点特征是拼接特征时,各个节点对应的神经网络可以灵活设计,使得神经网络的结构适用性更强;当全部节点的节点特征是拼接特征时,神经网络能够将各个节点的第一类特征和第二类特征进行拼接,使得最终得到的根节点的节点特征能够最大可能地表示出文本对象更全面的特征。结合第一方面或者第一方面的第一种可能的实施方式,在第二种可能的实施方式中,树结构中,相同类型的节点所对应的神经网络是相同的,不同类型的节点所对应的神经网络为相同或不同的。通过将相同类型的节点所对应的神经网络设计为相同,使得相同类型的节点能够复用同一个神经网络,从而降低了神经网络的训练成本;不同类型的节点对应的神经网络相同,可以降低神经网络的训练成本,而不同类型的节点对应的神经网络不同,使得神经网络的设计更加灵活,针对不同类型的节点实现不同的功能。结合第一方面、第一方面的第一种可能的实施方式或者第一方面的第二种可能的实施方式,在第三种可能的实施方式中,当第i+1层节点对应的神经网络的类型是第一类神经网络时,第i+1层节点的第二类特征的计算是通过将属于该第i+1层节点的各个第i层节点的节点特征输入与第i+1层节点对应的第一类神经网络,通过第一类神经网络对各个第i层节点的节点特征进行拼接,将拼接后的特征作为该第i+1层节点的第二类特征。第一类神经网络实现的功能是将各个第i层节点的节点特征进行多级拼接,适用于简单的节点特征的处理。结合第一方面、第一方面的第一种可能的实施方式、第一方面的第二种可能的实施方式或者第一方面的第三种可能的实施方式,在第四种可能的实施方式中,当第i+1层节点对应的神经网络的类型是第二类神经网络时,假设第i+1层节点包括m个第i层节点,m为正整数,m>1,其中最左侧的第i层节点被称为第1个第i层节点,最右侧的第i层节点被称为第m个第i层节点,第i+1层节点的第二类特征的计算是通过将m个第i层节点的节点特征从左往右依次输入第二类神经网络,通过第二类神经网络输出第一特征,然后再将m个第i层节点的节点特征从右往左依次输入第二类神经网络,通过第二类神经网络输出第二特征,最后将第一特征和第二特征进行拼接,得到该第i+1层节点的第二类特征;其中,在从左往右的执行过程中,在第i个第i层节点的节点特征被第二类神经网络处理完毕后,将第i+1个第i层节点的节点特征输入第二类神经网络进行处理;而在从右往左的执行过程中,在第i个第i层节点的节点特征被第二类神经网络处理完毕后,将第i-1个第i层节点的节点特征输入第二类神经网络,i为正整数,1<i<m,也就是说,在前一个第i层节点被第二类神经网络处理完毕后,再将下一个第i层节点输入第二类神经网络进行处理。由于从左往右和从右往左的处理过程,神经网络输出的第一特征和第二特征不同,将第一特征和第二特征进行拼接,使得神经网络输出的第二类特征能够有更全面的表达。结合第一方面、第一方面的第一种可能的实施方式、第一方面的第二种可能的实施方式、第一方面的第三种可能的实现方式或者第一方面的第四种可能的实施方式,在第五种可能的实施方式中,根节点的节点特征被输入分类器后,分类器能够输出文本对象可能对应的各个类别标签的概率值,然后将概率值最大的类别标签确定为文本对象的类别标签。通过将概率值最大的类别标签确定为文本对象的类别标签,使得分类器确定出的各个类别标签中可能性最大的类别标签作为文本对象的类别标签,分类结果的准确性更高。结合第一方面、第一本文档来自技高网...

【技术保护点】
1.一种文本对象分类方法,其特征在于,所述文本对象具有n层节点的树结构,所述树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分,n和i为正整数,1≤i<n,所述方法包括:获取第i层节点的节点特征,所述节点特征为:第一类特征和第二类特征拼接后得到的拼接特征,或者,所述第二类特征;将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征;当所述第i+1层节点是根节点时,将所述根节点的所述节点特征输入分类器,通过所述分类器输出所述文本对象的类别标签,所述树结构中的最顶层的节点为所述根节点;其中,所述第一类特征是通过人工特征工程提取的特征,所述第二类特征是通过机器学习到的特征,每个所述第i+1层节点对应有各自的所述神经网络,存在至少一个节点的节点特征是所述拼接特征。

【技术特征摘要】
1.一种文本对象分类方法,其特征在于,所述文本对象具有n层节点的树结构,所述树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分,n和i为正整数,1≤i<n,所述方法包括:获取第i层节点的节点特征,所述节点特征为:第一类特征和第二类特征拼接后得到的拼接特征,或者,所述第二类特征;将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征;当所述第i+1层节点是根节点时,将所述根节点的所述节点特征输入分类器,通过所述分类器输出所述文本对象的类别标签,所述树结构中的最顶层的节点为所述根节点;其中,所述第一类特征是通过人工特征工程提取的特征,所述第二类特征是通过机器学习到的特征,每个所述第i+1层节点对应有各自的所述神经网络,存在至少一个节点的节点特征是所述拼接特征。2.根据权利要求1所述的方法,其特征在于,存在位于至少一个路径和/或至少一层的节点的所述节点特征是所述拼接特征。3.根据权利要求1所述的方法,其特征在于,同一类型的所述节点所对应的所述神经网络是相同的,不同类型的所述节点所对应的所述神经网络不同或相同。4.根据权利要求1至3任一所述的方法,其特征在于,与所述第i+1层节点对应的所述神经网络是第一类神经网络;所述将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征,包括:将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入与所述第i+1层节点对应的所述第一类神经网络;通过所述第一类神经网络对各个所述第i层节点的节点特征进行多级拼接,得到所述第i+1层节点的第二类特征。5.根据权利要求1至3任一所述的方法,其特征在于,与所述第i+1层节点对应的所述神经网络是第二类神经网络;所述第i+1层节点包括m个所述第i层节点,最左侧为第1个第i层节点,最右侧为第m个第i层节点,m为正整数,m>1;所述将属于同一个第i+1层节点的各个第i层节点的所述节点特征,输入所述第i+1层节点对应的神经网络,得到所述第i+1层节点的所述第二类特征,包括:将m个所述第i层节点的节点特征从左往右依次输入所述第二类神经网络,得到第一特征;将m个所述第i层节点的节点特征从右往左依次输入所述第二类神经网络,得到第二特征;将所述第一特征和所述第二特征进行拼接,得到所述第i+1层节点的第二类特征。6.根据权利要求1至5任一所述的方法,其特征在于,所述当所述第i+1层节点是所述根节点时,将所述根节点的所述节点特征输入分类器,通过所述分类器输出所述文本对象的类别标签,包括:当所述第i+1层节点是所述根节点时,将所述根节点的所述节点特征输入所述分类器,得到所述文本对象属于各个类别标签的概率值;将概率值最大的类别标签确定为所述文本对象对应的类别标签。7.根据权利要求1至6任一所述的方法,其特征在于,所述分类器和所述神经网络的训练过程包括如下步骤:初始化所述分类器和所述神经网络的训练参数;获取...

【专利技术属性】
技术研发人员:刘晓华李航涂兆鹏严哲峰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1