一种面向中英混合文本的情绪分析方法技术

技术编号:39422670 阅读:8 留言:0更新日期:2023-11-19 16:11
一种面向中英混合文本的情绪分析方法,包括以下步骤:步骤1:获取关于文本情绪的中文公开数据集和英文公开数据集;步骤2:对数据集里的文本文件进行预处理;步骤3:搭建文本情绪特征提取模型并进行训练;步骤4:任取测试集的文本测试模型的准确率

【技术实现步骤摘要】
一种面向中英混合文本的情绪分析方法


[0001]本专利技术属于文本识别领域,具体涉及到一种面向中英混合文本的情绪分析方法


技术介绍

[0002]情感分析是一种细粒度模型,被称为情感分析的自然演化

目前已有多篇学术论文研究情感分析,其中有限的工作侧重于从文本中识别情感

情绪识别有很多应用,如股票预测

广告或产品推荐系统

受人们情绪影响的政治演讲

基于消费者情绪的公司营销策略等

一般来说,有三个标签,即正面

负面或中性来表示情绪

[0003]情绪分析方法一般是基于自然语言处理
(NLP)
技术,使用计算机算法处理和理解人类语言
。NLP
技术可以进行文本分词

词性标注

句法分析等操作,以帮助理解和解释文本中的语义和情感信息

机器学习算法在心理状态评估中被广泛应用

常见的方法包括朴素贝叶斯分类器

支持向量机
(SVM)、
逻辑回归

决策树等

这些算法可以根据已标注的情绪分析进行训练,并通过学习文本的模式和特征来推断作者的情绪状态

深度学习技术在情绪分析中也得到了应用

基于神经网络的模型,如卷积神经网络
(CNN)、
>循环神经网络
(RNN)、
注意力机制等,能够学习到更复杂的文本特征表示,并提高情绪分析的准确性

传统的基于文本的情感分类数据集通常只包含粗粒度的情感类别
(
如积极

消极

中性
)
,但情感是多样化的

我们用一个细粒度情感数据集,包括更多具体的情感类别
(
如喜悦

悲伤

愤怒

厌恶等
)
,以更准确地表示情感状态

一般基于中文的情绪分析和基于英文的情绪分析分别应用在不同的场景,但是,在网络用语中经常出现中英文混合的情况,单语言模型对中英文混合语句的特征提取往往会漏掉一些关键信息,导致情绪分析结果不准确

我们提出一种面向中英混合文本的情绪分析方法

由于相似的情感之间
(
例如悲伤和厌恶
)
会有一些区别,单模型训练可能无法准确的识别其中蕴含的情感,如果我们将数据集进行交叉训练,能够对该文本蕴含的情绪得到更加准确的结果


技术实现思路

[0004]为了克服已有技术的不足,解决当前情绪分析方法的局限性,本专利技术提出了一种面向中英混合文本的情绪分析方法,基于大型预训练模型和
CNN
的混合模型,充分利用了文本中蕴含的各种信息,以实现对文本蕴含情绪的准确识别

本专利技术涉及一种深度学习模型结构,其目的在于在训练过程中更有效地提取关键的文本特征

[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种面向中英混合文本的情绪分析方法,包括以下步骤:
[0007]步骤1:获取关于文本情绪的中文公开数据集和英文公开数据集,过程如下:
[0008]1.1
获取带有情绪倾向的文本中文公开数据集和英文公开数据集;
[0009]1.2
将中英数据里的
N
种情绪分别存在对应的文件夹;
[0010]1.3
在中文数据集中,将第一种情绪对应的文本标记为1,其他情绪对应的文本标记为0,构成数据集
X
c1
;类似地,将第二种情绪

第三种情绪等对应的文本数据集与其他数据
对立构成数据集
X
c2
、X
c3


、X
cN

在英文数据集上同样操作,构成数据集
X
e1
、X
e2
、X
e3


、X
eN

每个数据集按照对应的比例制作训练集

验证集和测试集;
[0011]步骤2:对数据集里的文本文件进行预处理;
[0012]步骤3:搭建文本情绪特征提取模型并进行训练;
[0013]步骤4:任取测试集的文本测试模型的准确率

[0014]进一步,所述步骤2的过程如下:
[0015]2.1
获取步骤
1.2

2N
个情绪文件夹中对应的文本文件;
[0016]2.2

2N
个文本数据进行预处理,包括文本清洗

分词

去除停用词和标点符号,这一步骤有助于减少噪音和规范化文本数据;
[0017]2.3

2.2
处理后的
2N
个数据集分别输入模型
B
得到上下文相关的词向量

[0018]更进一步,所述步骤3中,文本情绪特征提取模型分为两路平行特征提取模块,每一路包含对不同情绪的二分类,将
2N
个数据集分别训练,过程如下:
[0019]3.1

2.3
中得到的词向量输入双分支混合模型中,两个分支分别用于获取文本的全局特征和局部特征;
[0020]3.2
将获取的全局特征和局部特征通过注意力机制进行特征融合;注意力机制可以用于将不同部分的文本特征进行加权融合;通过计算注意力权重,可以更有针对性地聚焦于关键部分的特征;
[0021]3.3
在特征融合后的向量接一个分类器,用分类函数得到一个倾向值,与标签对比计算损失;
[0022]3.4
用反向传播方法训练
2N
个数据集对应模型的网络参数

[0023]所述步骤4的过程如下:
[0024]4.1
对新数据集,首先对其进行步骤
2.2
的预处理;
[0025]4.2
根据
ASCII
码区分中文词和英文词,词中每个字符的
ASCII
值属于字符范围的表明该词是英文词,否则是中文词;
[0026]4.3
然后将英文词输入步骤3训练得到的
N
个英文数据集对应的模型,将中文词输入步骤3训练得到的
N
个中文数据集对应的模型;
[0027]4.4

2N
个模型分类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种面向中英混合文本的情绪分析方法,其特征在于,所述方法包括以下步骤:步骤1:获取关于文本情绪的中文公开数据集和英文公开数据集,过程如下:
1.1
获取带有情绪倾向的文本中文公开数据集和英文公开数据集;
1.2
将中英数据里的
N
种情绪分别存在对应的文件夹;
1.3
在中文数据集中,将第一种情绪对应的文本标记为1,其他情绪对应的文本标记为0,构成数据集
X
c1
;类似地,将第二种情绪

第三种情绪等对应的文本数据集与其他数据对立构成数据集
X
c2
、X
c3


、X
cN

在英文数据集上同样操作,构成数据集
X
e1
、X
e2
、X
e3


、X
eN

每个数据集按照对应的比例制作训练集

验证集和测试集

步骤2:对数据集里的文本文件进行预处理;步骤3:搭建文本情绪特征提取模型并进行训练;步骤4:任取测试集的文本测试模型的准确率
。2.
如权利要求1所述的一种面向中英混合文本的情绪分析方法,其特征在于,所述步骤2的过程如下:
2.1
获取步骤
1.2

2N
个情绪文件夹中对应的文本文件;
2.2

2N
个文本数据进行预处理,包括文本清洗

分词

去除停用词和标点符号;
2.3
...

【专利技术属性】
技术研发人员:池凯凯周怡高华
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1