【技术实现步骤摘要】
一种优化网格标签的方面情感分析方法
[0001]本专利技术涉及一种优化网格标签的方面情感分析方法,属于自然语言处理,方面情感分析领域。
技术介绍
[0002]随着互联网时代的迅速发展,数据也正在迅速膨胀,如何最大获益的从巨量的数据中提取对人们的生产、生活有益的信息和知识是一项亟待解决的问题。目前,越来越多的人开始了对大数据的研究,对数据信息的提取。其中语言情感的分析就是大数据时代必须要走的一步,几乎每个人都不可避免的要与互联网打交道,通过网络和社交平台表达自己的观点,分享自己的经验,这些内容包括的领域很多,如X博上面的关于各种问题的讨论,知X上面各种生活经验的分享,各种事件的看法,以及美X,饿X么等餐饮服务平台里面大量的客户评价,它们明显带着感情色彩,所以对这些文本进行分析处理研究,对于市场调研、用户分析、网络舆论发现和预警等应用有重大的社会意义和商业价值,比如舆论监控,商品的好坏倾向。随着时间的推移,数据量会越来越大,服务需要越来越高效,通过技术的手段来分析文本情感已经成为必然,所以对于文本的情感分析很重要,其商用价值非常 ...
【技术保护点】
【技术特征摘要】
1.一种优化网格标签的方面情感分析方法,其特征在于,所述方法采用3标签对待分析句子S={W1,W2…
W
n
}进行标注,W
i
表示待分析句子S中的第i个单词;其中,句子中的方面术语与意见术语由对角线标注,词对信息在上三角标注,采用标签集{A,O,POS,NEU,NEG,N}来标记句子中词对(W
i
,W
j
)之间的关系;在方面情感三元组提取中采用四种编码{0,1,2,3}来对标签进行表示。2.根据权利要求1所述的方法,其特征在于,所述句子中的方面术语与意见术语由对角线标注,包括:若对角线上的词属于方面术语,则标签为A,编码为1,若对角线上的词属于意见术语,则标签为O,编码为2;方面术语与意见术语构成的一组词对由它们的交点标识,情感极性由交点的编码表示,采用{1,2,3}来表示情感标签{Neg,Neu,Pos},三个标签分别表示意见三元组表达的消极、中立和积极关系。3.根据权利要求2所述的方法,其特征在于,所述方法包括模型训练阶段和实际分析阶段;模型训练阶段采用公开数据集或者自采集的数据集对采用旋转位置嵌入优化网格标签编码层后的BERT模型进行训练得到最优模型;实际分析阶段利用所述最优模型对待分析文件进行方面情感分析;所述方法包括:步骤一:对公开数据集或者自采集的数据集中的文本数据样本进行预处理;步骤二:将预处理后的文本输入BERT模型得到带有文本的语义信息;其中BERT模型dropout值设置为0.3;步骤三:将带有文本的语义信息输入优化网格标签编码层进行标签标注;其中优化网格标签编码层采用旋转位置嵌入;步骤四:对优化网格标签编码层输出的二维的网格形式低维标签编码的两个输出分别求交叉熵和KL散度,进而求得最终Loss;步骤五:通过F1值来确定最优模型,F1值就是测试集结果的评估方法;步骤六:利用最优模型得到待分析文本对应的网格,将最优模型得到的网格解析成对应的三元组,作为方面情感分析结果。4.根据权利要求3所述的方法,其特征在于,所述对公开数据集或者自采集的数据集中的文本数据样本进行预处理,包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。