【技术实现步骤摘要】
基于字符的层次化文本情感分析方法及系统
本专利技术涉及自然语言处理的情感分析
,具体涉及一种基于字符的层次化文本情感分析方法及系统。
技术介绍
随着近年来互联网信息量的巨大增长,人们可以通过手机、电脑等终端接触到大量的文本信息,如新闻、博客、评论等。从大量的文本中提取重要的信息,如文本摘要、情感倾向等已成为信息爆炸的时代下快速理解信息的迫切需求。其中,情感倾向作为对文本信息更高层次的抽象,具有重要的应用价值。基于字符的含注意力机制的层次化文本情感分析方法为从大量的文本中提取情感倾向提供了一个高效的解决方案,可以帮助把握人们对于热点事件、候选人、商品和电影等事物的主要态度,对于消费者、管理者、竞争者等角色具有巨大的应用潜力。以往基于深度学习的文本情感分析方法大多是以词语为基础来分析文本的,这类方法的痛点在于:1、在世界上各种各样的语言中,词语的数量十分庞大,如英语中常用词就高达三至四万个,且随时代发展而灵活变化,如果要为每个词语设计一个唯一的数字化表示方法,词典占据的内存也会非常大,同时,在庞大的词典中查找某一词 ...
【技术保护点】
1.一种基于字符的层次化文本情感分析方法,其特征在于,包括下述步骤:/n文本预处理:对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;/n建立字符级别的神经网络模型:将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;/n建立句子级别的神经网络模型:以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。/n
【技术特征摘要】
1.一种基于字符的层次化文本情感分析方法,其特征在于,包括下述步骤:
文本预处理:对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;
建立字符级别的神经网络模型:将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;
建立句子级别的神经网络模型:以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。
2.根据权利要求1所述的基于字符的层次化文本情感分析方法,其特征在于,所述文本预处理的具体步骤包括:
设计字符集合,包括给定文本的语言下的基本字符,将该字符集合包装成字典,所述字典用于通过字符查找到对应下标,通过下标查找对应的字符;
划分文本中的句子:以给定文本的语言的句子结束符作为分割符,将单个文本分割成多个句子的集合;
基于字符集得到数字形式的文本表示:基于所述字典,将每个文本中的每个句子从字符序列转化为对应的下标序列,完成文本从字符形式向数字形式的转化。
3.根据权利要求2所述的基于字符的层次化文本情感分析方法,其特征在于,所述基于字符集得到数字形式的文本表示,具体步骤包括:
字符分割:将文本的每个句子分割为多个字符,存储在字符类型数组中;
大小写转化:将原文本中组成词语的字符全部替换为小写形式;
文本数字化:对照所述字典,将文本中所有字符转化成在字典中对应的下标,使文本由字符形式转化为数字形式;
统一句子长度:如果句子长度超过了设定的阈值,则进行裁剪,舍弃超出长度的句子部分;如果句子长度达不到设定的阈值,则用下标0进行填充至句子长度达到阈值;
统一文本长度:如果文本中句子的数目超过了设定的阈值,则进行裁剪,舍弃超出数目的部分句子;如果文本中句子的数目达不到设定的阈值,则用下标均为0的统一长度的句子填充文本至句子数目达到阈值。
4.根据权利要求1所述的基于字符的层次化文本情感分析方法,其特征在于,所述建立字符级别的神经网络模型,具体步骤包括:
所述模型嵌入层以预处理后的文本的每个句子作为输入单位,将句子的每个字符的下标转化成对应的唯一向量化表示,每个句子的表示形式由一维的下标序列转化为二维的字符向量序列;
所述卷积神经网络层采用多个不同大小的一维卷积核,同时对所述二维的字符向量序列进行卷积运算和全局最大池化运算,将运算结果进行拼接,得到多卷积核运算的输出结果;
所述解码层以所述多卷积核运算的输出结果作为输入,通过全连接层提取句子的特征向量,所述句子的特征向量作为句子级别的神经网络模型的输入。
5.根据权利要求4所述的基于字符的层次化文本情感分析方法,其特征在于...
【专利技术属性】
技术研发人员:黄斐然,王泽钒,高博宇,刘志全,
申请(专利权)人:暨南大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。