一种基于XLNet和BLS的弹幕情感分类方法技术

技术编号:26762736 阅读:54 留言:0更新日期:2020-12-18 23:15
弹幕是目前年轻人常用的互动方式,其中承载了丰富的情感信息。基于此本申请提出一种基于XLNet和BLS弹幕情感分类方法,包括:一、获取弹幕数据并预处理,构建数据集;二、对弹幕进行分词,使用词典编码器对句子进行标记;三、利用XLNet模型进行学习来更新深空间中的任务特定参数;四、将序列G(x)放入广义学习系统中,在广义空间中搜索额外的特征,根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签;五、用训练好的网络对测试样本做情感分类。

【技术实现步骤摘要】
一种基于XLNet和BLS的弹幕情感分类方法
本申请属于文本情感分析处理
,特别涉及一种基于深度学习模型XLNet与广义学习系统(BLS)的弹幕情感分类方法。
技术介绍
情感分析又称意见挖掘,是自然语言处理领域中一项重要而复杂的工作。它主要通过大量的文本数据来分析产品、服务、品牌所反映的意见、情感、态度。由于其广泛的应用,学术界和业界都在努力在几乎所有可能的领域开展相应的研究。近年来,电子商务和社交媒体在全球迅猛发展,理解和提取其中所包含的主观信息是一项繁琐的任务。因此,建立一个自动处理情绪分析任务的系统是非常必要的。2017年6月,Google团队提出了一种完全基于注意力机制的网络模块Transformer,它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(BidirectionalEncoderRepresentationsfromTransformers)横空出世,横扫各大排行榜,并引领一股预训练加微调的迁移学习热潮。但是在语言建模中仍然受到固定长度上下文的限制。针对此问题,本文档来自技高网...

【技术保护点】
1.一种基于XLNet和BLS的弹幕情感分类方法,包括:/nS1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;/nS2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];/nS3、利用XLNet模型进行学习来更新深空间中的任务特定参数;/nS4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签;/nS5、用训练好的网络对测试样本进行情感分类。...

【技术特征摘要】
1.一种基于XLNet和BLS的弹幕情感分类方法,包括:
S1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;
S2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];
S3、利用XLNet模型进行学习来更新深空间中的任务特定参数;
S4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签;
S5、用训练好的网络对测试样本进行情感分类。


2.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S1中,将表情等特殊字符转义成文字。并按9比1的比率将数据集分成训练集和测试集。


3.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S2中,词典D中每一行...

【专利技术属性】
技术研发人员:刘瑞军张伦王向上
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1