【技术实现步骤摘要】
文本分类方法、装置和电子设备
本专利技术涉及数据处理
,尤其是涉及一种文本分类方法、装置和电子设备。
技术介绍
游戏作为一个群众化的娱乐项目,其中的言论通常会涉及到政治、广告、辱骂等话题,因此需要对游戏言论进行分类,以监管游戏言论。相关技术中,游戏言论的分类方法通常有三种,第一种是关键词匹配方法,该方法将待处理言论与预先保存的关键词表单进行正则匹配,得到该待处理言论的类别,但该方式需要维护大量的关键词表单,导致人力资源的浪费;第二种是基于tf-idf(termfrequency–inversedocumentfrequency,词频-逆向文件频率)提取分词特征并用分类器分类的方式,该方式虽然无需维护大量的关键词表单,但对待处理言论的上下文语义理解不充分,易导致分类的准确性较差;第三种是基于神经网络的分类方法(例如,fasttext网络、word2vec网络、textcnn网络),该方法可以对待处理言论的上下文进行理解,但难以得到最优解,从而影响言论分类的准确性。
技术实现思路
本专利技术的目的在于提供一种文 ...
【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n将目标文本转换为与所述目标文本相匹配的符号串;/n将所述符号串输入至预先训练完成的分类模型中,其中,所述分类模型包括第一子模型和第二子模型;/n通过所述第一子模型对所述符号串进行特征提取,得到所述符号串的多组特征数据;/n通过所述第二子模型对所述多组特征数据进行分类,得到所述目标文本的分类结果。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
将目标文本转换为与所述目标文本相匹配的符号串;
将所述符号串输入至预先训练完成的分类模型中,其中,所述分类模型包括第一子模型和第二子模型;
通过所述第一子模型对所述符号串进行特征提取,得到所述符号串的多组特征数据;
通过所述第二子模型对所述多组特征数据进行分类,得到所述目标文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,将目标文本转换为与所述目标文本相匹配的符号串的步骤,包括:
提取所述目标文本中的分词;
根据预设的分词与符号对照字典,将所述目标文本中的每个所述分词转换为相应的符号;将每个所述分词对应的符号,组成与所述目标文本相匹配的字符串。
3.根据权利要求2所述的方法,其特征在于,提取所述目标文本中的分词的步骤,包括:
删除所述目标文本中的无效字符;其中,所述无效字符包括空格、表情、URL地址和系统标识;
按照预设规则,从删除无效字符后的所述目标文本中提取分词。
4.根据权利要求1所述的方法,其特征在于,所述第一子模型包括多个并联的特征提取组件;每个所述特征提取组件用于输出所述符号串的一组特征数据;所述通过所述第二子模型对所述多组特征数据进行分类,得到所述目标文本的分类结果的步骤,包括:
通过所述第二子模型接收多个所述特征提取组件输出的多组特征提取数据;
通过所述第二子模型计算所述多组特征数据的平均特征值,将所述平均特征值输入至预设的分类器中,输出所述目标文本的分类结果。
5.根据权利要求1所述的方法,其特征在于,所述分类模型通过下述方式训练得到:
对预设的样本集合进行划分,得到多个子集合;
基于所述多个子集合,训练所述第一子模型的初始模型,得到训练后的第一子模型;
将所述多个子集合中的样本输入至所述训练后的第一子模型,输出所述多个子集合中的样本对应的样本特征;
基于所述样本特征,训练所述第二子模型的初始模型,得到训练后的第二子模型。
6.根据权利要求5所述的方法,其特征在于,所述样本集合通过下述方式确定:
设置预设样本的类别标签;
计算所述预设样本中每个字符对应的分词的特征值;所述特征值包括:词频和逆文本频率指数;
采用预设分词对应的字符替换所述预设样本中所述特征值低于预设阈值的字符,得到扩增样本,在所述扩增样本上设置所述预设样本对应的类别标签;
将设置有类别标签的所述预设样本和所述扩增样本,确定为所述样本集合。
7.根据权利要求5所述的方法,其特征在于,所述第一子模型对应的初始模型包括多个并联的特征提取组件;所述基于所述多个子集合,训练所述第一子模型的初始模型,得到最终的第一子模型的步骤,包括:
针对每个所述特征提取组件,执行下述操作:
从所述多个子集合中,确定当前特征提取组件的测试集合;将所述多个子集合中除所述测试集合之外的子集合,确定为所述当前特征提取组件的训练集合;
从所述训练集合中确定目标样本;
将所述目标样本输入所述当前特征提取组件中,得到输出结果;
基于所述输出结果,计算预设损失函数的损失值;继续执行从所述训练集合中确定目标样本的步骤,直到所述损失值收敛,得到训练后的当前特征提取组件。
8.根据权利要求7所述的方法,其特征在于,从所述多个子集合中,确定当前特征提取组件的测试集合的步骤,包括:
根据多个所述特征提取组件中除所述当前特征提取组件之外的特征提取组件...
【专利技术属性】
技术研发人员:上官亚力,梁兆豪,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。