一种基于文本的情感分类方法、系统和电子设备技术方案

技术编号:38894865 阅读:14 留言:0更新日期:2023-09-22 14:17
本申请提供了一种基于文本的情感分类方法、系统及电子设备,涉及文本情感预测领域,包括获取原始文本信息;对所述原始文本信息进行数据清洗,得到待测文本信息;通过文本预测模型对所述待测文本信息进行情感预测时,为了提高情感预测的准确率,先对待测文本信息进行拆分为多个文本区域,再提取出文本区域对应的区域情感特征,进而得到与所述原始文本信息对应的目标情感标签。的目标情感标签。的目标情感标签。

【技术实现步骤摘要】
一种基于文本的情感分类方法、系统和电子设备


[0001]本专利技术涉及文本情感预测领域,尤其涉及一种基于文本的情感分类方法、系统和电子设备。

技术介绍

[0002]文本情感分析采用计算语言学的方法,可以对带有情感色彩的主观性文本进行分析,处理,归纳和推理。目前的情感分析方法主要有两种:类别型情感分析方法和维度型情感分析方法,区别于现有的类别型情感分析方法,维度型情感分析方法可以提供更为细致的情感信息。
[0003]然而,目前的面向中文的维度型情感分析方法,由于文本区域拆分单一,长短句分配不均衡,使得其情感分析准确度低。
[0004]因此,兹提出一种基于文本的情感分类方法、系统和电子设备。

技术实现思路

[0005]本说明书提供一种基于文本的情感分类方法、系统和电子设备,通过获取原始文本信息;对所述原始文本信息进行数据清洗,得到待测文本信息;为了提高情感预测的准确率,先对待测文本信息进行拆分,再对所述待测文本信息进行情感预测,得到与所述原始文本信息对应的目标情感标签,根据所述目标情感标签对所述原始文本信息进行情感分类。
[0006]本申请提供的一种基于文本的情感分类方法采用如下的技术方案,包括:
[0007]获取原始文本信息;
[0008]对所述原始文本信息进行数据清洗,得到待测文本信息;
[0009]通过文本预测模型对所述待测文本信息进行拆分,得到有序的待测文本区域,对所述有序的待测文本区域进行情感预测,得到与所述原始文本信息对应的目标情感标签,根据所述目标情感标签对所述原始文本信息进行情感分类。
[0010]可选的,所述对所述原始文本信息进行数据清洗,包括:
[0011]去除所述原始文本信息的英文;
[0012]和/或,去除所述原始文本信息的数字;
[0013]和/或,去除所述原始文本信息的空格;
[0014]和/或,对所述原始文本信息进行标点符号转换。
[0015]可选的,所述通过文本预测模型对所述待测文本信息进行拆分,得到有序的待测文本区域,对所述有序的待测文本区域进行情感预测,得到与所述原始文本信息对应的目标情感标签,根据所述目标情感标签对所述原始文本信息进行情感分类,包括:
[0016]按照文本拆分策略对所述待测文本信息进行拆分,得到有序的若干个待测文本区域;
[0017]对所述待测文本区域进行特征提取,得到区域情感特征,所述区域情感特征与所述待测文本区域一一对应;
[0018]按照所述待测文本区域的顺序,依次遍历与之对应的区域情感特征,得到目标情感标签。
[0019]可选的,所述按照文本拆分策略对所述待测文本信息进行拆分,得到有序的若干个待测文本区域,包括:
[0020]确定与所述待测文本信息对应的所有的待测语言结构;
[0021]根据第n+1级待测语言结构的拆分子策略对第n级拆分得到的待测文本区域依次进行拆分,得到与第n+1级待测语言结构对应的待测文本内容组,所述与第n+1级待测语言结构对应的待测文本内容组包括有序的若干个待测文本区域;
[0022]按照所有的所述待测语言结构的排序逻辑,对所有的所述待测文本内容组进行排序,得到情感分类序列,所述情感分类序列包括所有的所述待测文本区域。
[0023]可选的,所述确定与所述待测文本信息对应的所有的待测语言结构,包括:
[0024]识别出所述待测文本信息的初始级语言结构,查找与所述待测文本信息对应的所有的待测语言结构;按照复杂度高低对所述待测语言结构进行排序,所述待测语言结构包括复杂度低于或等于所述初始级语言结构的所有语言结构。
[0025]可选的,所述对所述待测文本区域进行特征提取,得到区域情感特征,包括:
[0026]识别所述待测文本区域中的词语,将所述待测文本区域中的词语转化为与之对应的词向量,根据所述词向量构建情感预测区域矩阵;
[0027]对所述情感预测区域矩阵进行特征提取,得到至少一局部情感特征;
[0028]对所述局部情感特征进行过滤,得到所述区域情感特征。
[0029]本申请提供的一种基于文本的情感分类系统采用如下的技术方案,包括:
[0030]获取模块,用于获取原始文本信息;
[0031]预处理模块,用于对所述原始文本信息进行数据清洗,得到待测文本信息;
[0032]预测模块,用于通过文本预测模型对所述待测文本信息进行拆分,得到有序的待测文本区域,对所述有序的待测文本区域进行情感预测,得到与所述原始文本信息对应的目标情感标签,根据所述目标情感标签对所述原始文本信息进行情感分类。
[0033]可选的,所述预处理模块,包括:
[0034]第一处理子模块,用于去除所述原始文本信息的英文;
[0035]第二处理子模块,用于去除所述原始文本信息的数字;
[0036]第三处理子模块,用于去除所述原始文本信息的空格;
[0037]第四处理子模块,用于对所述原始文本信息进行标点符号转换。
[0038]可选的,所述预测模块,包括:
[0039]拆分子模块,用于按照文本拆分策略对所述待测文本信息进行拆分,得到有序的若干个待测文本区域;
[0040]特征提取子模块,用于对所述待测文本区域进行特征提取,得到区域情感特征,所述区域情感特征与所述待测文本区域一一对应;
[0041]预测子模块,用于按照所述待测文本区域的顺序,依次遍历与之对应的区域情感特征,得到目标情感标签。
[0042]可选的,所述拆分子模块,包括:
[0043]语言结构确定单元,用于确定与所述待测文本信息对应的所有的待测语言结构;
[0044]拆分单元,用于根据第n+1级待测语言结构的拆分子策略对第n级拆分得到的待测文本区域依次进行拆分,得到与第n+1级待测语言结构对应的待测文本内容组,所述与第n+1级待测语言结构对应的待测文本内容组包括有序的若干个待测文本区域;
[0045]汇总单元,用于按照所有的所述待测语言结构的排序逻辑,对所有的所述待测文本内容组进行排序,得到情感分类序列,所述情感分类序列包括所有的所述待测文本区域。
[0046]可选的,所述语言结构确定单元,包括:
[0047]排序子单元,用于识别出所述待测文本信息的初始级语言结构,查找与所述待测文本信息对应的所有的待测语言结构;按照复杂度高低对所述待测语言结构进行排序,所述待测语言结构包括复杂度低于或等于所述初始级语言结构的所有语言结构。
[0048]可选的,所述特征提取子模块,包括:
[0049]矩阵构建单元,用于识别所述待测文本区域中的词语,将所述待测文本区域中的词语转化为与之对应的词向量,根据所述词向量构建情感预测区域矩阵;
[0050]特征提取单元,用于对所述情感预测区域矩阵进行特征提取,得到至少一局部情感特征;
[0051]过滤单元,用于对所述局部情感特征进行过滤,得到所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本的情感分类方法,其特征在于,包括:获取原始文本信息;对所述原始文本信息进行数据清洗,得到待测文本信息;通过文本预测模型对所述待测文本信息进行拆分,得到有序的待测文本区域,对所述有序的待测文本区域进行情感预测,得到与所述原始文本信息对应的目标情感标签,根据所述目标情感标签对所述原始文本信息进行情感分类。2.如权利要求1所述的一种基于文本情感预测的方法,其特征在于,所述对所述原始文本信息进行数据清洗,包括:去除所述原始文本信息的英文;和/或,去除所述原始文本信息的数字;和/或,去除所述原始文本信息的空格;和/或,对所述原始文本信息进行标点符号转换。3.如权利要求1所述的一种基于文本情感预测的方法,其特征在于,所述通过文本预测模型对所述待测文本信息进行拆分,得到有序的待测文本区域,对所述有序的待测文本区域进行情感预测,得到与所述原始文本信息对应的目标情感标签,根据所述目标情感标签对所述原始文本信息进行情感分类,包括:按照文本拆分策略对所述待测文本信息进行拆分,得到有序的若干个待测文本区域;对所述待测文本区域进行特征提取,得到区域情感特征,所述区域情感特征与所述待测文本区域一一对应;按照所述待测文本区域的顺序,依次遍历与之对应的区域情感特征,得到目标情感标签。4.如权利要求3所述的一种基于文本情感预测的方法,其特征在于,所述按照文本拆分策略对所述待测文本信息进行拆分,得到有序的若干个待测文本区域,包括:确定与所述待测文本信息对应的所有的待测语言结构;根据第n+1级待测语言结构的拆分子策略对第n级拆分得到的待测文本区域依次进行拆分,得到与第n+1级待测语言结构对应的待测文本内容组,所述与第n+1级待测语言结构对应的待测文本内容组包括有序的若干个待测文本区域;按照所有的所述待测语言结构的排序逻辑...

【专利技术属性】
技术研发人员:何熲谭润东高军晖
申请(专利权)人:上海暖禾脑科学技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1