【技术实现步骤摘要】
一种多语言融媒体文本情感分析方法
[0001]本专利技术属于数据处理
,尤其涉及一种多语言融媒体文本情感分析方法。
技术介绍
[0002]不同地区、不同语言的舆论文本数据都对决策者有重要的参考价值,各个不同语言的信息都可以作为研究数据互相补充,这有助于决策者分析不同地区的对待事件的特色看法,从而调整相应的策略部署。基于此,跨语言情感分类方法的研究显得尤为重要。
[0003]为了实现对跨语言文本的情感倾向的准确评估,在专利技术专利CN115080734A《一种基于注意力机制与强化学习的跨域情感分类方法》中通过利用强化学习思路应用随机策略进行特征选择,并根据计算得到的延迟奖励进行策略优化,并使用最优的情感分类策略实现跨域情感分类,但是却存在一下技术问题:在强化学习阶段,忽视了不同语言间的差异,对于不同语言组成的目标域和源域的差异各不相同,在进行强化学习时,若不考虑上述差异,则无法准确的实现对情感的识别和分类。
[0004]针对上述技术问题,本专利技术提供了一种多语言融媒体文本情感分析方法。
专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种多语言融媒体文本情感分析方法,其特征在于,具体包括:获取源域语言数据,并将所述源域语言数据转换为源域语言矢量向量,并利用源域语言矢量向量训练获得源语言编码器以及源语言分类器;基于所述源语言编码器进行目标语言编码器的初始化,并将目标语言矢量向量以及进行数据增强后的源域语言矢量向量作为目标语言编码器的输入,得到所述目标语言编码器的输出;将所述源域语言矢量向量作为输入得到源语言编码器的输出,并通过语言鉴别器确定所述目标语言编码器的输出和源语言编码器的输出的差异,采用学习模块和双线性模块对所述目标语言编码器的参数进行校正,直到所述差异满足要求后,得到训练完成后的目标语言编码器;对所述源域语言数据和翻译完成后的目标语言数据进行数据增强处理作为综合编码器的输入,采用训练完成的目标语言编码器和源语言编码器构建综合编码器,得到所述目标语言数据的情感分类结果。2.如权利要求1所述的多语言融媒体文本情感分析方法,其特征在于,所述源域编码器采用基于mBERT
‑
S模型进行构建,所述目标域编码器采用基于mBERT
‑
T模型进行构建。3.如权利要求1所述的多语言融媒体文本情感分析方法,其特征在于,通过语言鉴别器确定所述目标语言编码器的输出和源语言编码器的输出的差异,具体包括:获取所述目标语言编码器的输出,并将所述目标语言编码器的输出作为所述语言鉴别器的输入,并通过语言鉴别器确定所述语言鉴别器的输入为来自目标语言编码器的概率;获取所述源语言编码器的输出,并将所述源语言编码器的输出作为所述语言鉴别器的源语言输入,并通过语言鉴别器确定所述语言鉴别器的源语言输入为来自源语言编码器的概率;通过所述目标语言编码器的概率和所述源语言编码器的概率进行损失函数的构建,并基于所述损失函数进行述目标语言编码器的输出和源语言编码器的输出的差异的确定。4.如权利要求3所述的多语言融媒体文本情感分析方法,其特征在于,通过所述目标语言编码器的概率和所述源语言编码器的概率进行损失函数的构建,具体包括:通过所述目标语言编码器的概率进行所述目标语言编码器的目标语言损失函数的构建;通过所述源语言编码器的概率进行所述源语言编码器的源语言损失函数的构建;通过所述目标语言损失函数和源语言损失函数进行损失函数的构建,其中所述损失函数的计算公式为:;其中,D是语言判别器,为判别器损失函数,为源语言文本,为目标语言文本,为源语言特征提取器,为目标语言特征提取器。为从样本中随机选取其中一个单独样本进行特征提取,为从样本中随机选取其中一个单独样本进行特征提取,为判别器判定输入数据为来自源语言模型的概率,
为判别器判定输入数据来自目标语言模型的概率;是指让判别器状态趋近于最优,即尽量趋近1,尽量趋近于0。5.如权利要求1所述的多语言融媒体文本情感分析方法,其特征在于,对所述源域语言数据和翻译完成后的目标语言数据进行数据增强处理,具体包括:采用Code
‑...
【专利技术属性】
技术研发人员:吴林,王永滨,周亭,李海滨,李瑞,刘嘉暄,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。