【技术实现步骤摘要】
文本分类方法、文本分类模型训练方法及相关设备
本申请属于自然语言处理
,具体涉及一种文本分类方法、文本分类模型训练方法及相关设备。
技术介绍
文本分类是自然语言处理(NLP)中最基本、最重要的任务之一。它的主要作用是对一句话或者一段文本进行归类。例如,可以确定该文本的新闻分类属于政治、体育、军事、社会中的哪个类型,确定该文本的情感分类属于正能量、负能量中的哪种类型,确定该文本的评论分类属于好评、中性、差评中的哪种类型等。在实际应用中,经常会遇到特征矩阵稀疏的问题,即一些词出现的机会或次数较少,但具有重要的特征,例如情感分类中表示欢喜的“豁朗”、“心醉”、“踌躇满志”等词要比“快乐”、“高兴”等词少见,表示伤心的“哀戚”、“酸楚”、“凄凉郁闷”等词要比“悲伤”、“难过”等词少见。也就是说,传统的文本分类算法的文本分类的准确性较低。
技术实现思路
本申请实施例的目的是提供一种文本分类方法、文本分类模型训练方法及相关设备,用于提高文本分类的准确性。第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:获取待分类的文本信息,所述文本信息包括语句和词组;根据所述语句和所述词组构建异构图,所述异构图中的节点由所述语句和所述词组构成;将所述异构图对应的图数据输入文本分类模型,输出所述文本信息的分类结果;其中,所述分类结果基于N组节点特征确定得到,所述N组节点特征基于N头自注意力机制和所述图数据确定得到,所述N组节点特征与所述N头注意力机制相对应,N为大于1的整 ...
【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n获取待分类的文本信息,所述文本信息包括语句和词组;/n根据所述语句和所述词组构建异构图,所述异构图中的节点由所述语句和所述词组构成;/n将所述异构图对应的图数据输入文本分类模型,输出所述文本信息的分类结果;其中,所述分类结果基于N组节点特征确定得到,所述N组节点特征基于N头自注意力机制和所述图数据确定得到,所述N组节点特征与所述N头注意力机制相对应,N为大于1的整数。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类的文本信息,所述文本信息包括语句和词组;
根据所述语句和所述词组构建异构图,所述异构图中的节点由所述语句和所述词组构成;
将所述异构图对应的图数据输入文本分类模型,输出所述文本信息的分类结果;其中,所述分类结果基于N组节点特征确定得到,所述N组节点特征基于N头自注意力机制和所述图数据确定得到,所述N组节点特征与所述N头注意力机制相对应,N为大于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述异构图包括所述词组构成的第一节点和所述语句构成的第二节点;所述方法还包括:
获取所述第一节点的词向量,所述词向量用于指示所述第一节点对应的词组在所述第二节点对应的语句中的重要程度;
根据所述词向量确定逻辑回归算法的最优超参数;
根据所述最优超参数获取所述第一节点对应的回归系数;
根据所述回归系数确定所述图数据。
3.根据权利要求1所述的方法,其特征在于,所述文本分类模型包括嵌入层、第一图卷积神经网络和第二图卷积神经网络;所述将所述异构图对应的图数据输入文本分类模型,输出所述文本信息的分类结果,包括:
将所述图数据输入所述嵌入层,输出所述异构图中每个节点对应的初始特征矩阵;
将所述图数据和所述初始特征矩阵输入所述第一图卷积神经网络,输出一阶邻域节点特征,所述一阶邻域节点特征基于所述N组节点特征确定得到;
将所述图数据和所述一阶邻域节点特征输入所述第二图卷积神经网络,输出二阶邻域节点特征,所述二阶邻域节点特征用于指示所述分类结果。
4.根据权利要求3所述的方法,其特征在于,所述第一图卷积神经网络包括N维图卷积层、一维图卷积层和全连接层;所述将所述图数据和所述初始特征矩阵输入所述第一图卷积神经网络,输出一阶邻域节点特征,包括:
将所述图数据和所述初始特征矩阵输入所述N维图卷积层,输出N组节点权重;其中,所述N组节点权重基于所述N头自注意力机制、所述图数据和所述初始特征矩阵确定得到,所述N头自注意力机制用于对所述图数据和所述初始特征矩阵进行N次图卷积计算;
将所述图数据和所述初始特征矩阵输入所述一维图卷积层,输出中间邻域节点特征;
将所述N组节点权重中的每个节点权重分别与所述中间邻域节点特征进行加权计算,确定N组节点特征;
对所述N组节点特征进行拼接;
将拼接后的N组节点特征输入所述全连接层,输出所述一阶邻域节点特征。
5.根据权利要求4所述的方法,其特征在于,所述将拼接后的N组节点特征输入所述全连接层,输出所述一阶邻域节点特征,包括:
对拼接后的N组节点特征进行仿射变换;
将仿射变换后的N组节点特征与所述中间邻域节点特征进行残差计算;
将残差计算后的N组节点特征确定为所述一阶邻域节点特征。
6.根据权利要求1所述的方法,其特征在于,所述获取待分类的文本信息之后,所述方法还包括:
对所述文本信息进行数据清洗;
对数据清洗后的文本信息进行分词处理;
获取分词处理后的文本信息中的目标词组,所述目标词组为所述文本信息中词频大于预设阈值的词组;
所述根据所述语句和所述词组构建异构图,包括:根据所述语句和所述...
【专利技术属性】
技术研发人员:赵宏宇,赵国庆,蒋宁,王洪斌,吴海英,林亚臣,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。